Fugu-MT 論文翻訳(概要): CoVAE: correlated multimodal generative modeling

論文の概要: CoVAE: correlated multimodal generative modeling

arxiv url: http://arxiv.org/abs/2603.01965v1
Date: Mon, 02 Mar 2026 15:14:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.933992
Title: CoVAE: correlated multimodal generative modeling
Title（参考訳）: CoVAE-相関多モード生成モデル
Authors: Federico Caretti, Guido Sanguinetti,
Abstract要約: モーダル間の相関をキャプチャする新しい生成アーキテクチャであるCorrelated Variational Autoencoders (CoVAE) を紹介する。我々は,正確なクロスモーダル再構成と関連する不確かさの有効定量化を実証する,多数の実データおよび合成データセット上で,CoVAEを検証した。
参考スコア（独自算出の注目度）: 1.9336815376402718
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal Variational Autoencoders have emerged as a popular tool to extract effective representations from rich multimodal data. However, such models rely on fusion strategies in latent space that destroy the joint statistical structure of the multimodal data, with profound implications for generation and uncertainty quantification. In this work, we introduce Correlated Variational Autoencoders (CoVAE), a new generative architecture that captures the correlations between modalities. We test CoVAE on a number of real and synthetic data sets demonstrating both accurate cross-modal reconstruction and effective quantification of the associated uncertainties.
Abstract（参考訳）: マルチモーダル変分オートエンコーダは、リッチなマルチモーダルデータから効率的な表現を抽出する一般的なツールとして登場した。しかし、そのようなモデルは、多重モーダルデータの合同統計構造を破壊する潜在空間における融合戦略に依存しており、生成と不確実性の定量化に深い意味を持つ。本研究では,Correlated Variational Autoencoders (CoVAE)を紹介する。我々は,正確なクロスモーダル再構成と関連する不確かさの有効定量化を実証する,多数の実データおよび合成データセット上で,CoVAEを検証した。

関連論文リスト

Cross-Modal Alignment via Variational Copula Modelling [54.25504956780864]
複数のモーダルから様々な情報を集約するマルチモーダル学習手法を開発することが不可欠である。既存の方法は主に連結やクロネッカー積に依存し、モジュラリティ間の相互作用構造を単純化する。そこで本研究では,様々なモーダルの連成分布の学習に焦点を当てた,コプラ駆動型マルチモーダル学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-11-05T05:28:28Z)
NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。 NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文参考訳（メタデータ） (2025-10-15T16:25:18Z)
Disentanglement of Variations with Multimodal Generative Modeling [18.610989859219895]
マルチモーダルデータの堅牢な表現を学習する際の課題を解決するために,IDMVAE(Information-disentangled Multimodal VAE)を提案する。既存のアプローチと比較すると、IDMVAEは共有情報とプライベート情報の明確な分離を示し、課題のあるデータセットに対して優れた生成品質とセマンティックコヒーレンスを示す。
論文参考訳（メタデータ） (2025-09-28T00:54:39Z)
Bridging the inference gap in Mutimodal Variational Autoencoders [6.246098300155483]
マルチモーダル変分オートエンコーダは、観測されたモダリティから観測されていないモダリティを生成するための多目的でスケーラブルな方法を提供する。エキスパートの混合集合を用いた最近のモデルは、複雑なデータセットにおける生成品質を制限する理論的に基礎的な制限に悩まされている。本稿では,混合アグリゲーションを導入することなく,結合分布と条件分布の両方を学習できる新しい解釈可能なモデルを提案する。
論文参考訳（メタデータ） (2025-02-06T10:43:55Z)
A Markov Random Field Multi-Modal Variational AutoEncoder [1.2233362977312945]
この研究は、マルコフランダム場(MRF)を前と後の両方の分布に組み込む新しいマルチモーダルVAEを導入する。我々のアプローチは、これらの関係の複雑さをモデル化し、活用することを目的としており、マルチモーダルデータのより忠実な表現を可能にしている。
論文参考訳（メタデータ） (2024-08-18T19:27:30Z)
Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning [80.44084021062105]
本稿では,非方向エッジで連結された2つの潜在結合変数を特徴とする,多モーダルデータに対する新しい潜在部分因果モデルを提案する。特定の統計的仮定の下では、多モーダル・コントラッシブ・ラーニングによって学習された表現が、自明な変換までの潜在結合変数に対応することを示す。事前トレーニングされたCLIPモデルの実験は、非絡み合った表現を具現化し、数ショットの学習を可能にし、さまざまな現実世界のデータセットにわたるドメインの一般化を改善する。
論文参考訳（メタデータ） (2024-02-09T07:18:06Z)
Learning multi-modal generative models with permutation-invariant encoders and tighter variational objectives [5.549794481031468]
マルチモーダルデータに対する深い潜伏変数モデルの開発は、機械学習研究において長年のテーマであった。本研究では,データログ類似度を厳密に近似できる変動目標について考察する。我々は,PoE や MoE のアプローチにおける帰納バイアスを回避するために,より柔軟なアグリゲーション手法を開発した。
論文参考訳（メタデータ） (2023-09-01T10:32:21Z)
Score-Based Multimodal Autoencoder [0.9208007322096533]
マルチモーダル変分オートエンコーダ (VAEs) は、複数のモーダルが与えられた潜在空間内でのトラクタブルな後部の構築を容易にする。これまでの研究では、モダリティの数が増えるにつれて、各モダリティの生成品質が低下することが示されている。本研究では、独立に訓練された単調なVAEの潜伏空間を共同でモデル化することにより、マルチモーダルなVAEの生成性能を高めるための代替手法について検討する。
論文参考訳（メタデータ） (2023-05-25T04:43:47Z)
Quantifying & Modeling Multimodal Interactions: An Information Decomposition Framework [89.8609061423685]
本稿では,入力モーダル性と出力タスクを関連付けた冗長性,特異性,シナジーの度合いを定量化する情報理論手法を提案する。 PID推定を検証するために、PIDが知られている合成データセットと大規模マルチモーダルベンチマークの両方で広範な実験を行う。本研究では,(1)マルチモーダルデータセット内の相互作用の定量化,(2)マルチモーダルモデルで捉えた相互作用の定量化,(3)モデル選択の原理的アプローチ,(4)実世界のケーススタディの3つにその有用性を示す。
論文参考訳（メタデータ） (2023-02-23T18:59:05Z)
Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文参考訳（メタデータ） (2021-07-28T23:33:42Z)
Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文参考訳（メタデータ） (2020-10-25T18:51:15Z)
Relating by Contrasting: A Data-efficient Framework for Multimodal Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文参考訳（メタデータ） (2020-07-02T15:08:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。