論文の概要: Disentanglement of Variations with Multimodal Generative Modeling
- arxiv url: http://arxiv.org/abs/2509.23548v1
- Date: Sun, 28 Sep 2025 00:54:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.284102
- Title: Disentanglement of Variations with Multimodal Generative Modeling
- Title(参考訳): 多モード生成モデルによる変分の不整合
- Authors: Yijie Zhang, Yiyang Shen, Weiran Wang,
- Abstract要約: マルチモーダルデータの堅牢な表現を学習する際の課題を解決するために,IDMVAE(Information-disentangled Multimodal VAE)を提案する。
既存のアプローチと比較すると、IDMVAEは共有情報とプライベート情報の明確な分離を示し、課題のあるデータセットに対して優れた生成品質とセマンティックコヒーレンスを示す。
- 参考スコア(独自算出の注目度): 18.610989859219895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal data are prevalent across various domains, and learning robust representations of such data is paramount to enhancing generation quality and downstream task performance. To handle heterogeneity and interconnections among different modalities, recent multimodal generative models extract shared and private (modality-specific) information with two separate variables. Despite attempts to enforce disentanglement between these two variables, these methods struggle with challenging datasets where the likelihood model is insufficient. In this paper, we propose Information-disentangled Multimodal VAE (IDMVAE) to explicitly address this issue, with rigorous mutual information-based regularizations, including cross-view mutual information maximization for extracting shared variables, and a cycle-consistency style loss for redundancy removal using generative augmentations. We further introduce diffusion models to improve the capacity of latent priors. These newly proposed components are complementary to each other. Compared to existing approaches, IDMVAE shows a clean separation between shared and private information, demonstrating superior generation quality and semantic coherence on challenging datasets.
- Abstract(参考訳): マルチモーダルデータは様々な領域に分散しており、このようなデータの堅牢な表現を学習することは、生成品質の向上と下流タスクのパフォーマンス向上に最重要である。
異なるモード間の不均一性と相互接続を扱うため、最近の多モード生成モデルは2つの変数で共有およびプライベート(モダリティ固有の)情報を抽出する。
これら2つの変数間の絡み合いを強制しようとする試みにもかかわらず、これらの手法は確率モデルが不十分な挑戦的なデータセットと競合する。
本稿では,共有変数抽出のための相互情報最大化と,生成拡張を用いた冗長性除去のためのサイクル整合性スタイルの損失を含む,厳密な相互情報ベース正規化を含む,この問題に明示的に対処するためのIDMVAE(Information-disentangled Multimodal VAE)を提案する。
さらに拡散モデルを導入し、潜伏前の能力を改善する。
これらの新しく提案されたコンポーネントは相互に補完的である。
既存のアプローチと比較すると、IDMVAEは共有情報とプライベート情報の明確な分離を示し、課題のあるデータセットに対して優れた生成品質とセマンティックコヒーレンスを示す。
関連論文リスト
- Learning multi-modal generative models with permutation-invariant encoders and tighter variational objectives [5.549794481031468]
マルチモーダルデータに対する深い潜伏変数モデルの開発は、機械学習研究において長年のテーマであった。
本研究では,データログ類似度を厳密に近似できる変動目標について考察する。
我々は,PoE や MoE のアプローチにおける帰納バイアスを回避するために,より柔軟なアグリゲーション手法を開発した。
論文 参考訳(メタデータ) (2023-09-01T10:32:21Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - Discriminative Multimodal Learning via Conditional Priors in Generative
Models [21.166519800652047]
本研究は,モデルトレーニングにおいて,すべてのモダリティとクラスラベルが利用できる現実的なシナリオについて研究する。
このシナリオでは、変動的な下界境界は、結合表現と欠測モダリティの間の相互情報を制限する。
論文 参考訳(メタデータ) (2021-10-09T17:22:24Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Learning Multimodal VAEs through Mutual Supervision [72.77685889312889]
MEMEは、相互監督を通じて暗黙的にモダリティ間の情報を結合する。
我々は、MEMEが、部分的および完全観察スキームの双方で標準メトリクスのベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2021-06-23T17:54:35Z) - Private-Shared Disentangled Multimodal VAE for Learning of Hybrid Latent
Representations [24.3033562693679]
本稿では,複数モードのプライベートおよび共有潜在空間を分離するために,分散VAE戦略を利用した分散マルチモーダル変分オートエンコーダ(DMVAE)を提案する。
DMVAEの有用性を半教師付き学習タスクで実証し、モダリティの1つに部分的なデータラベルが含まれている。
いくつかのベンチマークで行った実験は、プライベートシェードな絡み合いとハイブリッドな潜伏表現の重要性を示している。
論文 参考訳(メタデータ) (2020-12-23T23:33:23Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。