論文の概要: Multimodal Variational Autoencoder: a Barycentric View
- arxiv url: http://arxiv.org/abs/2412.20487v1
- Date: Sun, 29 Dec 2024 15:02:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:01:48.411370
- Title: Multimodal Variational Autoencoder: a Barycentric View
- Title(参考訳): 多モード変分オートエンコーダ:バリ中心ビュー
- Authors: Peijie Qiu, Wenhui Zhu, Sayantan Kumar, Xiwen Chen, Xiaotong Sun, Jin Yang, Abolfazl Razi, Yalin Wang, Aristeidis Sotiras,
- Abstract要約: バリセンタのレンズによる多モードVAEの代替的および理論的定式化を提供する。
特に、2-ワッセルシュタイン距離で定義されるワッセルシュタイン準中心を探索し、一次元分布の幾何学をよりよく保存する。
3つのマルチモーダルベンチマークに関する実証研究により,提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 3.413330490927693
- License:
- Abstract: Multiple signal modalities, such as vision and sounds, are naturally present in real-world phenomena. Recently, there has been growing interest in learning generative models, in particular variational autoencoder (VAE), to for multimodal representation learning especially in the case of missing modalities. The primary goal of these models is to learn a modality-invariant and modality-specific representation that characterizes information across multiple modalities. Previous attempts at multimodal VAEs approach this mainly through the lens of experts, aggregating unimodal inference distributions with a product of experts (PoE), a mixture of experts (MoE), or a combination of both. In this paper, we provide an alternative generic and theoretical formulation of multimodal VAE through the lens of barycenter. We first show that PoE and MoE are specific instances of barycenters, derived by minimizing the asymmetric weighted KL divergence to unimodal inference distributions. Our novel formulation extends these two barycenters to a more flexible choice by considering different types of divergences. In particular, we explore the Wasserstein barycenter defined by the 2-Wasserstein distance, which better preserves the geometry of unimodal distributions by capturing both modality-specific and modality-invariant representations compared to KL divergence. Empirical studies on three multimodal benchmarks demonstrated the effectiveness of the proposed method.
- Abstract(参考訳): 視覚や音などの複数の信号モダリティは、実世界の現象に自然に存在する。
近年,特に変分オートエンコーダ (VAE) における生成モデル学習への関心が高まり,特にモダリティが欠如している場合の多モーダル表現学習への関心が高まっている。
これらのモデルの主な目的は、複数のモダリティにまたがる情報を特徴付けるモダリティ不変かつモダリティ固有表現を学習することである。
従来のマルチモーダルVAEの試みは、主に専門家のレンズ、専門家の製品(PoE)、専門家の混合物(MoE)、あるいは両者の組み合わせによって、不動の推論分布を集約する。
本稿では,バリセンターのレンズによる多モードVAEの汎用的および理論的定式化について述べる。
まず,PoE と MoE は非対称重み付き KL の偏差を非特異な推論分布に最小化することにより,バリセンターの特異な例であることを示す。
我々の新しい定式化は、これらの2つのバリセンターを、異なる種類の発散を考慮し、より柔軟な選択へと拡張する。
特に、2-ワッサーシュタイン距離で定義されるワッサーシュタイン準中心を探索し、KL の発散と比較して、モダリティ固有表現とモダリティ不変表現の両方を捉えることにより、一様分布の幾何をよりよく保存する。
3つのマルチモーダルベンチマークに関する実証研究により,提案手法の有効性が示された。
関連論文リスト
- MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - Confidence-aware multi-modality learning for eye disease screening [58.861421804458395]
眼疾患スクリーニングのための新しい多モード顕在核融合パイプラインを提案する。
モダリティごとに信頼度を測り、マルチモダリティ情報をエレガントに統合する。
パブリックデータセットと内部データセットの両方の実験結果は、我々のモデルが堅牢性に優れていることを示している。
論文 参考訳(メタデータ) (2024-05-28T13:27:30Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts
in Underspecified Visual Tasks [92.32670915472099]
拡散確率モデル(DPM)を用いた合成カウンターファクトの生成を利用したアンサンブルの多様化フレームワークを提案する。
拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成し,ショートカットからの注意を回避できることを示す。
論文 参考訳(メタデータ) (2023-10-03T17:37:52Z) - Learning multi-modal generative models with permutation-invariant encoders and tighter variational objectives [5.549794481031468]
マルチモーダルデータに対する深い潜伏変数モデルの開発は、機械学習研究において長年のテーマであった。
本研究では,データログ類似度を厳密に近似できる変動目標について考察する。
我々は,PoE や MoE のアプローチにおける帰納バイアスを回避するために,より柔軟なアグリゲーション手法を開発した。
論文 参考訳(メタデータ) (2023-09-01T10:32:21Z) - Quantifying & Modeling Multimodal Interactions: An Information
Decomposition Framework [89.8609061423685]
本稿では,入力モーダル性と出力タスクを関連付けた冗長性,特異性,シナジーの度合いを定量化する情報理論手法を提案する。
PID推定を検証するために、PIDが知られている合成データセットと大規模マルチモーダルベンチマークの両方で広範な実験を行う。
本研究では,(1)マルチモーダルデータセット内の相互作用の定量化,(2)マルチモーダルモデルで捉えた相互作用の定量化,(3)モデル選択の原理的アプローチ,(4)実世界のケーススタディの3つにその有用性を示す。
論文 参考訳(メタデータ) (2023-02-23T18:59:05Z) - Generalizing Multimodal Variational Methods to Sets [35.69942798534849]
本稿では,マルチモーダル潜在空間を学習するために,Set Multimodal VAE(SMVAE)と呼ばれる新しい変分法を提案する。
共同モダリティ後部分布を直接モデル化することにより、提案したSMVAEは、複数のモダリティ間で情報を交換し、分解による欠点を補うことを学習する。
論文 参考訳(メタデータ) (2022-12-19T23:50:19Z) - Private-Shared Disentangled Multimodal VAE for Learning of Hybrid Latent
Representations [24.3033562693679]
本稿では,複数モードのプライベートおよび共有潜在空間を分離するために,分散VAE戦略を利用した分散マルチモーダル変分オートエンコーダ(DMVAE)を提案する。
DMVAEの有用性を半教師付き学習タスクで実証し、モダリティの1つに部分的なデータラベルが含まれている。
いくつかのベンチマークで行った実験は、プライベートシェードな絡み合いとハイブリッドな潜伏表現の重要性を示している。
論文 参考訳(メタデータ) (2020-12-23T23:33:23Z) - Learning more expressive joint distributions in multimodal variational
methods [0.17188280334580194]
正規化フローを用いたマルチモーダル変分法の表現能力を向上させる手法を提案する。
このモデルは,様々なコンピュータビジョンタスクの変動推論に基づいて,最先端のマルチモーダル手法を改善することを実証する。
また, より強力な近似関節分布の学習により, 生成した試料の品質が向上することを示した。
論文 参考訳(メタデータ) (2020-09-08T11:45:27Z) - MISA: Modality-Invariant and -Specific Representations for Multimodal
Sentiment Analysis [48.776247141839875]
本稿では,2つの異なる部分空間に各モダリティを投影する新しいフレームワーク MISA を提案する。
最初の部分空間はモダリティ不変(modality-invariant)であり、モダリティにまたがる表現はその共通点を学び、モダリティギャップを減少させる。
一般的な感情分析ベンチマークであるMOSIとMOSEIの実験は、最先端モデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2020-05-07T15:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。