論文の概要: Aggregation of Dependent Expert Distributions in Multimodal Variational Autoencoders
- arxiv url: http://arxiv.org/abs/2505.01134v1
- Date: Fri, 02 May 2025 09:24:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.981716
- Title: Aggregation of Dependent Expert Distributions in Multimodal Variational Autoencoders
- Title(参考訳): 多モード変分オートエンコーダにおける依存的エキスパート分布の集約
- Authors: Rogelio A Mancisidor, Robert Jenssen, Shujian Yu, Michael Kampffmeyer,
- Abstract要約: 変分オートエンコーダ(VAE)を用いたマルチモーダル学習は,エビデンスローバウンド(ELBO)を評価するために関節分布を推定する必要がある
本研究は,従属専門家の合意の原則を生かして,単一モダリティ分布を集約する新しい手法を提案する。
結果として得られたCoDE-VAEモデルは、生成的コヒーレンスと生成的品質のトレードオフのバランスの点で優れた性能を示し、より正確なログライクな推定を生成する。
- 参考スコア(独自算出の注目度): 32.87811217394167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal learning with variational autoencoders (VAEs) requires estimating joint distributions to evaluate the evidence lower bound (ELBO). Current methods, the product and mixture of experts, aggregate single-modality distributions assuming independence for simplicity, which is an overoptimistic assumption. This research introduces a novel methodology for aggregating single-modality distributions by exploiting the principle of consensus of dependent experts (CoDE), which circumvents the aforementioned assumption. Utilizing the CoDE method, we propose a novel ELBO that approximates the joint likelihood of the multimodal data by learning the contribution of each subset of modalities. The resulting CoDE-VAE model demonstrates better performance in terms of balancing the trade-off between generative coherence and generative quality, as well as generating more precise log-likelihood estimations. CoDE-VAE further minimizes the generative quality gap as the number of modalities increases. In certain cases, it reaches a generative quality similar to that of unimodal VAEs, which is a desirable property that is lacking in most current methods. Finally, the classification accuracy achieved by CoDE-VAE is comparable to that of state-of-the-art multimodal VAE models.
- Abstract(参考訳): 変分オートエンコーダ(VAE)を用いたマルチモーダル学習では,エビデンスローバウンド(ELBO)を評価するために,関節分布を推定する必要がある。
現在の方法、すなわち専門家の製品と混合は、単純さの独立性を仮定する単一モダリティ分布を集約するものであり、これは過度に最適化的な仮定である。
本研究では、上記の仮定を回避した依存的専門家の合意(CoDE)の原則を活用することにより、単一モダリティ分布を集約する新しい手法を提案する。
本稿では,CoDE法を用いて,モーダルデータのサブセットの寄与を学習し,マルチモーダルデータの結合確率を近似する新しいELBOを提案する。
結果として得られたCoDE-VAEモデルは、生成的コヒーレンスと生成的品質のトレードオフのバランスの点で優れた性能を示し、より正確なログライクな推定を生成する。
CoDE-VAEは、モダリティの数が増えるにつれて、生成品質ギャップをさらに小さくする。
場合によっては、現在のほとんどの方法に欠けている望ましい性質である単調なVAEと類似した生成品質に達する。
最後に、CoDE-VAEによって達成された分類精度は、最先端のマルチモーダルVAEモデルに匹敵する。
関連論文リスト
- Bridging the inference gap in Mutimodal Variational Autoencoders [6.246098300155483]
マルチモーダル変分オートエンコーダは、観測されたモダリティから観測されていないモダリティを生成するための多目的でスケーラブルな方法を提供する。
エキスパートの混合集合を用いた最近のモデルは、複雑なデータセットにおける生成品質を制限する理論的に基礎的な制限に悩まされている。
本稿では,混合アグリゲーションを導入することなく,結合分布と条件分布の両方を学習できる新しい解釈可能なモデルを提案する。
論文 参考訳(メタデータ) (2025-02-06T10:43:55Z) - Robust Multi-Modal Density Estimation [14.643918024937758]
ROME (RObust Multi-modal Estimator) は密度推定のための非パラメトリック手法である。
我々は,ROMEが他の推定者によって提示される過度な適合や過度なスムース化の問題を克服できることを示した。
論文 参考訳(メタデータ) (2024-01-19T09:10:58Z) - Score-Based Multimodal Autoencoder [0.9208007322096533]
マルチモーダル変分オートエンコーダ (VAEs) は、複数のモーダルが与えられた潜在空間内でのトラクタブルな後部の構築を容易にする。
これまでの研究では、モダリティの数が増えるにつれて、各モダリティの生成品質が低下することが示されている。
本研究では、独立に訓練された単調なVAEの潜伏空間を共同でモデル化することにより、マルチモーダルなVAEの生成性能を高めるための代替手法について検討する。
論文 参考訳(メタデータ) (2023-05-25T04:43:47Z) - Generalizing Multimodal Variational Methods to Sets [35.69942798534849]
本稿では,マルチモーダル潜在空間を学習するために,Set Multimodal VAE(SMVAE)と呼ばれる新しい変分法を提案する。
共同モダリティ後部分布を直接モデル化することにより、提案したSMVAEは、複数のモダリティ間で情報を交換し、分解による欠点を補うことを学習する。
論文 参考訳(メタデータ) (2022-12-19T23:50:19Z) - A Unified Framework for Multi-distribution Density Ratio Estimation [101.67420298343512]
バイナリ密度比推定(DRE)は多くの最先端の機械学習アルゴリズムの基礎を提供する。
ブレグマン最小化の発散の観点から一般的な枠組みを開発する。
我々のフレームワークはバイナリDREでそれらのフレームワークを厳格に一般化する手法に導かれることを示す。
論文 参考訳(メタデータ) (2021-12-07T01:23:20Z) - Trustworthy Multimodal Regression with Mixture of Normal-inverse Gamma
Distributions [91.63716984911278]
このアルゴリズムは、異なるモードの適応的統合の原理における不確かさを効率的に推定し、信頼できる回帰結果を生成する。
実世界のデータと実世界のデータの両方に対する実験結果から,多モード回帰タスクにおける本手法の有効性と信頼性が示された。
論文 参考訳(メタデータ) (2021-11-11T14:28:12Z) - On the Limitations of Multimodal VAEs [9.449650062296824]
マルチモーダル変分オートエンコーダ(VAE)は、弱い教師付きデータに対する効率的な生成モデルとして期待されている。
弱い監督の利点にもかかわらず、単調なVAEと比較すると、遺伝子品質の差が見られる。
論文 参考訳(メタデータ) (2021-10-08T13:28:28Z) - Loss function based second-order Jensen inequality and its application
to particle variational inference [112.58907653042317]
粒子変分推論(PVI)は、後部分布の実験的近似としてモデルのアンサンブルを用いる。
PVIは、最適化されたモデルの多様性を保証するために、各モデルを反発力で反復的に更新する。
我々は,新たな一般化誤差を導出し,モデルの多様性を高めて低減できることを示す。
論文 参考訳(メタデータ) (2021-06-09T12:13:51Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。