論文の概要: Learning Multimodal Energy-Based Model with Multimodal Variational Auto-Encoder via MCMC Revision
- arxiv url: http://arxiv.org/abs/2605.00644v1
- Date: Fri, 01 May 2026 13:25:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.964768
- Title: Learning Multimodal Energy-Based Model with Multimodal Variational Auto-Encoder via MCMC Revision
- Title(参考訳): MCMC改訂によるマルチモーダル変分オートエンコーダを用いたマルチモーダルエネルギーベースモデルの学習
- Authors: Jiali Cui, Zhiqiang Lao, Heather Yu,
- Abstract要約: マルチモーダルEMM,共有潜時発生器,共同推論モデルの学習問題について検討した。
我々はESMサンプリングの強い初期状態として機能するコヒーレントなマルチモーダルサンプルを作成することを学ぶ。
- 参考スコア(独自算出の注目度): 9.644873133156656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Energy-based models (EBMs) are a flexible class of deep generative models and are well-suited to capture complex dependencies in multimodal data. However, learning multimodal EBM by maximum likelihood requires Markov Chain Monte Carlo (MCMC) sampling in the joint data space, where noise-initialized Langevin dynamics often mixes poorly and fails to discover coherent inter-modal relationships. Multimodal VAEs have made progress in capturing such inter-modal dependencies by introducing a shared latent generator and a joint inference model. However, both the shared latent generator and joint inference model are parameterized as unimodal Gaussian (or Laplace), which severely limits their ability to approximate the complex structure induced by multimodal data. In this work, we study the learning problem of the multimodal EBM, shared latent generator, and joint inference model. We present a learning framework that effectively interweaves their MLE updates with corresponding MCMC refinements in both the data and latent spaces. Specifically, the generator is learned to produce coherent multimodal samples that serve as strong initial states for EBM sampling, while the inference model is learned to provide informative latent initializations for generator posterior sampling. Together, these two models serve as complementary models that enable effective EBM sampling and learning, yielding realistic and coherent multimodal EBM samples. Extensive experiments demonstrate superior performance for multimodal synthesis quality and coherence compared to various baselines. We conduct various analyses and ablation studies to validate the effectiveness and scalability of the proposed multimodal framework.
- Abstract(参考訳): エネルギーベースモデル(EBMs)は、深層生成モデルの柔軟なクラスであり、マルチモーダルデータの複雑な依存関係を捉えるのに適している。
しかし、マルチモーダルEMMを最大限に学習するには、マルコフ・チェイン・モンテ・カルロ(MCMC)が結合データ空間でサンプリングする必要がある。
マルチモーダルVAEは、共振器と共振器モデルを導入することで、そのようなモーダル間の依存関係を捕捉する。
しかし、共振子生成モデルと共振子推論モデルの両方はユニモーダルガウス(またはラプラス)としてパラメータ化され、マルチモーダルデータによって引き起こされる複素構造を近似する能力を著しく制限する。
本研究では,マルチモーダルEMM,共有潜在生成器,共同推論モデルの学習問題について検討する。
本稿では,MLE更新をデータと潜伏空間の両方でMCMCの改良に効果的に織り込む学習フレームワークを提案する。
具体的には、ジェネレータは、ESMサンプリングの強い初期状態として機能するコヒーレントなマルチモーダルサンプルを生成することを学習し、推論モデルは、ジェネレータ後続サンプリングのための情報的な潜時初期化を提供するように学習する。
これら2つのモデルは、効率的なEMMサンプリングと学習を可能にする補完モデルとして機能し、現実的でコヒーレントなマルチモーダルEMMサンプルを生成する。
広範囲な実験により、多モード合成の品質とコヒーレンスにおいて、様々なベースラインと比較して優れた性能を示す。
提案するマルチモーダルフレームワークの有効性と拡張性を検証するために,様々な分析およびアブレーション研究を行う。
関連論文リスト
- NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - Learning Multimodal Latent Generative Models with Energy-Based Prior [3.6648642834198797]
EBMに潜時生成モデルを統合する新しいフレームワークを提案する。
このアプローチは、より表現力があり、情報的であり、複数のモダリティにまたがる情報のより良いキャプチャをもたらす。
論文 参考訳(メタデータ) (2024-09-30T01:38:26Z) - Learning Multimodal Latent Space with EBM Prior and MCMC Inference [4.003600947581215]
本稿では,マルチモーダル生成のための潜在空間における表現的エネルギーベースモデル(EBM)とマルコフ・チェイン・モンテカルロ(MCMC)推論とを結合したアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-20T00:33:45Z) - Learning Energy-Based Models by Cooperative Diffusion Recovery Likelihood [64.95663299945171]
高次元データに基づくエネルギーベースモデル(EBM)の訓練は、困難かつ時間を要する可能性がある。
EBMと、GANや拡散モデルのような他の生成フレームワークとの間には、サンプル品質に顕著なギャップがある。
本研究では,協調拡散回復可能性 (CDRL) を提案する。
論文 参考訳(メタデータ) (2023-09-10T22:05:24Z) - Learning Joint Latent Space EBM Prior Model for Multi-layer Generator [44.4434704520236]
多層ジェネレータモデルの学習における基礎的問題について検討する。
本稿では,全層にまたがる待ち行列空間上のエネルギーモデル (EBM) を提案する。
実験により、学習したモデルが高品質な画像を生成する際に表現できることが実証された。
論文 参考訳(メタデータ) (2023-06-10T00:27:37Z) - Score-Based Multimodal Autoencoder [0.9208007322096533]
マルチモーダル変分オートエンコーダ (VAEs) は、複数のモーダルが与えられた潜在空間内でのトラクタブルな後部の構築を容易にする。
これまでの研究では、モダリティの数が増えるにつれて、各モダリティの生成品質が低下することが示されている。
本研究では、独立に訓練された単調なVAEの潜伏空間を共同でモデル化することにより、マルチモーダルなVAEの生成性能を高めるための代替手法について検討する。
論文 参考訳(メタデータ) (2023-05-25T04:43:47Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。