論文の概要: Hellinger Multimodal Variational Autoencoders
- arxiv url: http://arxiv.org/abs/2601.06572v1
- Date: Sat, 10 Jan 2026 13:39:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.881913
- Title: Hellinger Multimodal Variational Autoencoders
- Title(参考訳): ヘリンガー多モード変分オートエンコーダ
- Authors: Huyen Khanh Vo, Isabel Valera,
- Abstract要約: マルチモーダル変分オートエンコーダ(VAE)は、複数のモーダルを持つ弱教師付き生成学習に広く用いられている。
サブサンプリングを回避するマルチモーダルVAEであるHELVAEを提案する。
我々は、生成的コヒーレンスと品質のトレードオフを実証的に達成し、最先端のマルチモーダルVAEモデルより優れています。
- 参考スコア(独自算出の注目度): 7.778719963322215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal variational autoencoders (VAEs) are widely used for weakly supervised generative learning with multiple modalities. Predominant methods aggregate unimodal inference distributions using either a product of experts (PoE), a mixture of experts (MoE), or their combinations to approximate the joint posterior. In this work, we revisit multimodal inference through the lens of probabilistic opinion pooling, an optimization-based approach. We start from Hölder pooling with $α=0.5$, which corresponds to the unique symmetric member of the $α\text{-divergence}$ family, and derive a moment-matching approximation, termed Hellinger. We then leverage such an approximation to propose HELVAE, a multimodal VAE that avoids sub-sampling, yielding an efficient yet effective model that: (i) learns more expressive latent representations as additional modalities are observed; and (ii) empirically achieves better trade-offs between generative coherence and quality, outperforming state-of-the-art multimodal VAE models.
- Abstract(参考訳): マルチモーダル変分オートエンコーダ(VAE)は、複数のモーダルを持つ弱教師付き生成学習に広く用いられている。
先行する手法は、専門家の積(PoE)、専門家の混合(MoE)、またはそれらの組み合わせを使って、関節後部を近似する。
本研究では,確率論的意見プールリングのレンズによるマルチモーダル推論を,最適化に基づくアプローチで再検討する。
我々は、$α=0.5$のヘルダープールから始まり、$α\text{-divergence}$ family のユニークな対称な部分に対応する。
そして、そのような近似を利用して、サブサンプリングを避けるマルチモーダルVAEであるHELVAEを提案する。
i)追加のモダリティが観測されるにつれて、より表現力のある潜在表現を学習すること。
(II) 生成的コヒーレンスと品質のトレードオフを実証的に達成し, 最先端のマルチモーダルVAEモデルより優れる。
関連論文リスト
- HBridge: H-Shape Bridging of Heterogeneous Experts for Unified Multimodal Understanding and Generation [72.69742127579508]
最近の統一モデルでは、理解の専門家(LLMなど)と生成の専門家(拡散モデルなど)を統合している。
本研究では,非対称なH字型アーキテクチャであるHBridgeを提案する。
複数のベンチマークにわたる大規模な実験は、HBridgeの有効性と優れた性能を示している。
論文 参考訳(メタデータ) (2025-11-25T17:23:38Z) - Amplifying Prominent Representations in Multimodal Learning via Variational Dirichlet Process [55.91649771370862]
ディリクレ過程(DP)混合モデルは、最も顕著な特徴を増幅できる強力な非パラメトリック法である。
本稿では,DP駆動型マルチモーダル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-23T16:53:24Z) - Importance Sampling for Multi-Negative Multimodal Direct Preference Optimization [68.64764778089229]
MISP-DPOはマルチモーダルDPOに複数の意味的に多様な負の画像を組み込む最初のフレームワークである。
提案手法は,CLIP空間にプロンプトと候補画像を埋め込んで,意味的偏差を解釈可能な因子に発見するためにスパースオートエンコーダを適用する。
5つのベンチマーク実験により、MISP-DPOは従来手法よりも常にマルチモーダルアライメントを改善することが示された。
論文 参考訳(メタデータ) (2025-09-30T03:24:09Z) - Aggregation of Dependent Expert Distributions in Multimodal Variational Autoencoders [32.87811217394167]
変分オートエンコーダ(VAE)を用いたマルチモーダル学習は,エビデンスローバウンド(ELBO)を評価するために関節分布を推定する必要がある
本研究は,従属専門家の合意の原則を生かして,単一モダリティ分布を集約する新しい手法を提案する。
結果として得られたCoDE-VAEモデルは、生成的コヒーレンスと生成的品質のトレードオフのバランスの点で優れた性能を示し、より正確なログライクな推定を生成する。
論文 参考訳(メタデータ) (2025-05-02T09:24:10Z) - Multimodal Variational Autoencoder: a Barycentric View [3.413330490927693]
バリセンタのレンズによる多モードVAEの代替的および理論的定式化を提供する。
特に、2-ワッセルシュタイン距離で定義されるワッセルシュタイン準中心を探索し、一次元分布の幾何学をよりよく保存する。
3つのマルチモーダルベンチマークに関する実証研究により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-12-29T15:02:50Z) - Score-Based Multimodal Autoencoder [0.9208007322096533]
マルチモーダル変分オートエンコーダ (VAEs) は、複数のモーダルが与えられた潜在空間内でのトラクタブルな後部の構築を容易にする。
これまでの研究では、モダリティの数が増えるにつれて、各モダリティの生成品質が低下することが示されている。
本研究では、独立に訓練された単調なVAEの潜伏空間を共同でモデル化することにより、マルチモーダルなVAEの生成性能を高めるための代替手法について検討する。
論文 参考訳(メタデータ) (2023-05-25T04:43:47Z) - Generalizing Multimodal Variational Methods to Sets [35.69942798534849]
本稿では,マルチモーダル潜在空間を学習するために,Set Multimodal VAE(SMVAE)と呼ばれる新しい変分法を提案する。
共同モダリティ後部分布を直接モデル化することにより、提案したSMVAEは、複数のモダリティ間で情報を交換し、分解による欠点を補うことを学習する。
論文 参考訳(メタデータ) (2022-12-19T23:50:19Z) - A Unified Framework for Multi-distribution Density Ratio Estimation [101.67420298343512]
バイナリ密度比推定(DRE)は多くの最先端の機械学習アルゴリズムの基礎を提供する。
ブレグマン最小化の発散の観点から一般的な枠組みを開発する。
我々のフレームワークはバイナリDREでそれらのフレームワークを厳格に一般化する手法に導かれることを示す。
論文 参考訳(メタデータ) (2021-12-07T01:23:20Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。