論文の概要: Bridging the inference gap in Mutimodal Variational Autoencoders
- arxiv url: http://arxiv.org/abs/2502.03952v1
- Date: Thu, 06 Feb 2025 10:43:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:34:01.591794
- Title: Bridging the inference gap in Mutimodal Variational Autoencoders
- Title(参考訳): マルチモーダル変分オートエンコーダにおける推論ギャップのブリッジ化
- Authors: Agathe Senellart, Stéphanie Allassonnière,
- Abstract要約: マルチモーダル変分オートエンコーダは、観測されたモダリティから観測されていないモダリティを生成するための多目的でスケーラブルな方法を提供する。
エキスパートの混合集合を用いた最近のモデルは、複雑なデータセットにおける生成品質を制限する理論的に基礎的な制限に悩まされている。
本稿では,混合アグリゲーションを導入することなく,結合分布と条件分布の両方を学習できる新しい解釈可能なモデルを提案する。
- 参考スコア(独自算出の注目度): 6.246098300155483
- License:
- Abstract: From medical diagnosis to autonomous vehicles, critical applications rely on the integration of multiple heterogeneous data modalities. Multimodal Variational Autoencoders offer versatile and scalable methods for generating unobserved modalities from observed ones. Recent models using mixturesof-experts aggregation suffer from theoretically grounded limitations that restrict their generation quality on complex datasets. In this article, we propose a novel interpretable model able to learn both joint and conditional distributions without introducing mixture aggregation. Our model follows a multistage training process: first modeling the joint distribution with variational inference and then modeling the conditional distributions with Normalizing Flows to better approximate true posteriors. Importantly, we also propose to extract and leverage the information shared between modalities to improve the conditional coherence of generated samples. Our method achieves state-of-the-art results on several benchmark datasets.
- Abstract(参考訳): 医療診断から自動運転車への重要な応用は、複数の異種データモダリティの統合に依存している。
マルチモーダル変分オートエンコーダは、観測されたモダリティから観測されていないモダリティを生成するための多目的でスケーラブルな方法を提供する。
エキスパートの混合集合を用いた最近のモデルは、複雑なデータセットにおける生成品質を制限する理論的に基礎的な制限に悩まされている。
本稿では,混合アグリゲーションを導入することなく,結合分布と条件分布の両方を学習できる新しい解釈可能なモデルを提案する。
モデルでは,まず共分散を変分推論でモデル化し,次に正規化フローを用いて条件分布をモデル化し,真の後部を近似する。
重要なこととして、我々は、モダリティ間で共有される情報を抽出し、活用して、生成したサンプルの条件コヒーレンスを改善することを提案する。
提案手法は,複数のベンチマークデータセットの最先端結果を実現する。
関連論文リスト
- Constrained Diffusion Models via Dual Training [80.03953599062365]
拡散プロセスは、トレーニングデータセットのバイアスを反映したサンプルを生成する傾向がある。
所望の分布に基づいて拡散制約を付与し,制約付き拡散モデルを構築する。
本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
論文 参考訳(メタデータ) (2024-08-27T14:25:42Z) - InterHandGen: Two-Hand Interaction Generation via Cascaded Reverse Diffusion [53.90516061351706]
両手インタラクションに先立って生成を学習する新しいフレームワークであるInterHandGenを提案する。
サンプリングにアンチペネティフィケーションと合成フリーガイダンスを組み合わせることで、プラウシブルな生成を可能にする。
本手法は, 妥当性と多様性の観点から, ベースライン生成モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-03-26T06:35:55Z) - Improving Multimodal Joint Variational Autoencoders through Normalizing
Flows and Correlation Analysis [0.0]
一方向後部はディープ・カノニカル・相関解析(英語版)の埋め込みで条件付けされている。
また、正規化フローを使用して、単調な後部を豊かにし、より多様なデータ生成を実現しています。
論文 参考訳(メタデータ) (2023-05-19T17:15:34Z) - Discriminative Multimodal Learning via Conditional Priors in Generative
Models [21.166519800652047]
本研究は,モデルトレーニングにおいて,すべてのモダリティとクラスラベルが利用できる現実的なシナリオについて研究する。
このシナリオでは、変動的な下界境界は、結合表現と欠測モダリティの間の相互情報を制限する。
論文 参考訳(メタデータ) (2021-10-09T17:22:24Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - Learning more expressive joint distributions in multimodal variational
methods [0.17188280334580194]
正規化フローを用いたマルチモーダル変分法の表現能力を向上させる手法を提案する。
このモデルは,様々なコンピュータビジョンタスクの変動推論に基づいて,最先端のマルチモーダル手法を改善することを実証する。
また, より強力な近似関節分布の学習により, 生成した試料の品質が向上することを示した。
論文 参考訳(メタデータ) (2020-09-08T11:45:27Z) - Accounting for Unobserved Confounding in Domain Generalization [107.0464488046289]
本稿では,データセットの組み合わせから頑健で一般化可能な予測モデルを学習する際の問題点について検討する。
堅牢なモデルを学ぶことの課題の一部は、保存されていない共同設立者の影響にある。
異なるモダリティの医療データに対するアプローチの実証的性能を実証する。
論文 参考訳(メタデータ) (2020-07-21T08:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。