論文の概要: On the Limitations of Multimodal VAEs
- arxiv url: http://arxiv.org/abs/2110.04121v1
- Date: Fri, 8 Oct 2021 13:28:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-11 19:44:52.421434
- Title: On the Limitations of Multimodal VAEs
- Title(参考訳): マルチモーダルvaesの限界について
- Authors: Imant Daunhawer, Thomas M. Sutter, Kieran Chin-Cheong, Emanuele
Palumbo and Julia E. Vogt
- Abstract要約: マルチモーダル変分オートエンコーダ(VAE)は、弱い教師付きデータに対する効率的な生成モデルとして期待されている。
弱い監督の利点にもかかわらず、単調なVAEと比較すると、遺伝子品質の差が見られる。
- 参考スコア(独自算出の注目度): 9.449650062296824
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multimodal variational autoencoders (VAEs) have shown promise as efficient
generative models for weakly-supervised data. Yet, despite their advantage of
weak supervision, they exhibit a gap in generative quality compared to unimodal
VAEs, which are completely unsupervised. In an attempt to explain this gap, we
uncover a fundamental limitation that applies to a large family of
mixture-based multimodal VAEs. We prove that the sub-sampling of modalities
enforces an undesirable upper bound on the multimodal ELBO and thereby limits
the generative quality of the respective models. Empirically, we showcase the
generative quality gap on both synthetic and real data and present the
tradeoffs between different variants of multimodal VAEs. We find that none of
the existing approaches fulfills all desired criteria of an effective
multimodal generative model when applied on more complex datasets than those
used in previous benchmarks. In summary, we identify, formalize, and validate
fundamental limitations of VAE-based approaches for modeling weakly-supervised
data and discuss implications for real-world applications.
- Abstract(参考訳): マルチモーダル変分オートエンコーダ(VAE)は、弱い教師付きデータに対する効率的な生成モデルとして期待されている。
しかし、弱い監督の利点にもかかわらず、完全に監督されていない単調なVAEと比べて、生産品質の差が見られる。
このギャップを説明するため、混合ベースの多モードvaesの大規模なファミリーに適用できる基本的な制限を明らかにする。
我々は,モダリティのサブサンプリングが多モードELBO上の望ましくない上限を強制し,各モデルの生成品質を制限することを証明した。
経験的に,合成データと実データの両方に生成的品質ギャップを示し,マルチモーダルVAEの異なる変種間のトレードオフを示す。
従来のベンチマークよりも複雑なデータセットに適用した場合、既存のアプローチが有効なマルチモーダル生成モデルの望ましいすべての基準を満たさないことが分かりました。
要約すると、弱い教師付きデータをモデル化するためのvaeベースのアプローチの基本的な制限を特定し、形式化し、検証する。
関連論文リスト
- Enhancing Unimodal Latent Representations in Multimodal VAEs through Iterative Amortized Inference [20.761803725098005]
マルチモーダル変分オートエンコーダ(VAE)は、異なるデータモダリティからの情報を統合することで、共有潜在表現をキャプチャすることを目的としている。
重要な課題は、あらゆる可能なモダリティの組み合わせに対して、非現実的な数の推論ネットワークを訓練することなく、任意のモダリティのサブセットから正確に表現を推論することである。
本稿では,マルチモーダルVAEフレームワーク内での反復的改善機構であるマルチモーダル反復補正推論を導入する。
論文 参考訳(メタデータ) (2024-10-15T08:49:38Z) - MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - Multi-modal Latent Diffusion [8.316365279740188]
多モード変分オートエンコーダ(Multi-modal Variational Autoencoder)は、様々なモダリティの合同表現を学習することを目的とした、一般的なモデルのファミリーである。
既存のアプローチはコヒーレンス品質のトレードオフに悩まされており、優れた世代品質のモデルはモダリティ間で生成コヒーレンスを欠いている。
独立に訓練された一様・一様・決定論的オートエンコーダの集合を用いる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-07T14:16:44Z) - Score-Based Multimodal Autoencoders [4.594159253008448]
マルチモーダル変分オートエンコーダ(VAEs)は、複数のモダリティを与えられた潜在空間内でのトラクタブルな後部の構築を容易にする。
本研究では, マルチモーダルVAEの生成性能を高めるための代替手法について検討した。
本モデルでは,単調なVAEの優れた生成品質と,異なるモダリティをまたいだコヒーレントな統合を組み合わせた。
論文 参考訳(メタデータ) (2023-05-25T04:43:47Z) - Quantifying & Modeling Multimodal Interactions: An Information
Decomposition Framework [89.8609061423685]
本稿では,入力モーダル性と出力タスクを関連付けた冗長性,特異性,シナジーの度合いを定量化する情報理論手法を提案する。
PID推定を検証するために、PIDが知られている合成データセットと大規模マルチモーダルベンチマークの両方で広範な実験を行う。
本研究では,(1)マルチモーダルデータセット内の相互作用の定量化,(2)マルチモーダルモデルで捉えた相互作用の定量化,(3)モデル選択の原理的アプローチ,(4)実世界のケーススタディの3つにその有用性を示す。
論文 参考訳(メタデータ) (2023-02-23T18:59:05Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Discriminative Multimodal Learning via Conditional Priors in Generative
Models [21.166519800652047]
本研究は,モデルトレーニングにおいて,すべてのモダリティとクラスラベルが利用できる現実的なシナリオについて研究する。
このシナリオでは、変動的な下界境界は、結合表現と欠測モダリティの間の相互情報を制限する。
論文 参考訳(メタデータ) (2021-10-09T17:22:24Z) - Generalized Multimodal ELBO [11.602089225841631]
複数のデータ型は、現実世界の現象を記述し、そこから学習する際に自然に共起する。
ELBOを近似する既存の自己制御生成モデルは、マルチモーダルモデルのすべての要求を満たすことができない。
これらの制限を克服したマルチモーダルデータのための新しい一般化ELBO定式化を提案する。
論文 参考訳(メタデータ) (2021-05-06T07:05:00Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - Accounting for Unobserved Confounding in Domain Generalization [107.0464488046289]
本稿では,データセットの組み合わせから頑健で一般化可能な予測モデルを学習する際の問題点について検討する。
堅牢なモデルを学ぶことの課題の一部は、保存されていない共同設立者の影響にある。
異なるモダリティの医療データに対するアプローチの実証的性能を実証する。
論文 参考訳(メタデータ) (2020-07-21T08:18:06Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。