論文の概要: Learning Multimodal Latent Space with EBM Prior and MCMC Inference
- arxiv url: http://arxiv.org/abs/2408.10467v1
- Date: Tue, 20 Aug 2024 00:33:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 15:34:22.981451
- Title: Learning Multimodal Latent Space with EBM Prior and MCMC Inference
- Title(参考訳): EBMプリミティブとMCMC推論によるマルチモーダル遅延空間の学習
- Authors: Shiyu Yuan, Carlo Lipizzi, Tian Han,
- Abstract要約: 本稿では,マルチモーダル生成のための潜在空間における表現的エネルギーベースモデル(EBM)とマルコフ・チェイン・モンテカルロ(MCMC)推論とを結合したアプローチを提案する。
- 参考スコア(独自算出の注目度): 4.003600947581215
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal generative models are crucial for various applications. We propose an approach that combines an expressive energy-based model (EBM) prior with Markov Chain Monte Carlo (MCMC) inference in the latent space for multimodal generation. The EBM prior acts as an informative guide, while MCMC inference, specifically through short-run Langevin dynamics, brings the posterior distribution closer to its true form. This method not only provides an expressive prior to better capture the complexity of multimodality but also improves the learning of shared latent variables for more coherent generation across modalities. Our proposed method is supported by empirical experiments, underscoring the effectiveness of our EBM prior with MCMC inference in enhancing cross-modal and joint generative tasks in multimodal contexts.
- Abstract(参考訳): マルチモーダル生成モデルは様々な用途に欠かせない。
本稿では,マルチモーダル生成のための潜在空間における表現的エネルギーベースモデル(EBM)とマルコフ・チェイン・モンテカルロ(MCMC)推論とを結合したアプローチを提案する。
EBMは情報的ガイドとして機能し、MCMC推論は特に短期ランゲヴィン力学を通して、後部分布を真の形に近づける。
この方法は、多様性の複雑さをよりよく捉えるための表現的事前を提供するだけでなく、多様性のコヒーレントな生成のために共有潜在変数の学習を改善する。
提案手法は,マルチモーダルコンテキストにおける相互・共同生成タスクの強化において,MCMC推論に先立ってEMMの有効性を裏付ける実証実験によって支持された。
関連論文リスト
- Asymmetric Reinforcing against Multi-modal Representation Bias [59.685072206359855]
マルチモーダル表現バイアス(ARM)に対する非対称強化法を提案する。
我々のARMは、条件付き相互情報を通じて支配的なモダリティを表現する能力を維持しながら、弱いモダリティを動的に強化する。
我々はマルチモーダル学習の性能を著しく改善し、不均衡なマルチモーダル学習の軽減に顕著な進展をもたらした。
論文 参考訳(メタデータ) (2025-01-02T13:00:06Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Learning Multimodal Latent Generative Models with Energy-Based Prior [3.6648642834198797]
EBMに潜時生成モデルを統合する新しいフレームワークを提案する。
このアプローチは、より表現力があり、情報的であり、複数のモダリティにまたがる情報のより良いキャプチャをもたらす。
論文 参考訳(メタデータ) (2024-09-30T01:38:26Z) - Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。
我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。
階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。
両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文 参考訳(メタデータ) (2024-07-06T04:36:48Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Learning Energy-Based Prior Model with Diffusion-Amortized MCMC [89.95629196907082]
非収束短距離MCMCを用いた事前及び後方サンプリングによる潜時空間EMM学習の一般的な実践は、さらなる進歩を妨げている。
本稿では,MCMCサンプリングのための単純だが効果的な拡散型アモータイズ手法を導入し,それに基づく潜時空間EMMのための新しい学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-05T00:23:34Z) - Revisiting Disentanglement and Fusion on Modality and Context in
Conversational Multimodal Emotion Recognition [81.2011058113579]
特徴の多様性と会話の文脈化は、特徴の絡み合いと融合の段階において、同時に適切にモデル化されるべきである。
マルチモーダル・コンテキスト統合のためのコントリビューション・アウェア・フュージョン・メカニズム(CFM)とコンテキスト・リフュージョン・メカニズム(CRM)を提案する。
我々のシステムは、新しい最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2023-08-08T18:11:27Z) - Chain-of-Thought Prompt Distillation for Multimodal Named Entity
Recognition and Multimodal Relation Extraction [8.169359626365619]
思考のテキストチェーン(CoT) -- 中間推論ステップのシーケンスを生成します。
本稿では,大規模言語モデルからのコモンセンス推論能力を同化するための新しい条件付きプロンプト蒸留法を提案する。
我々のアプローチは最先端の精度を達成し、解釈可能性、データ効率、ドメイン間の一般化に関する多くの利点を示す。
論文 参考訳(メタデータ) (2023-06-25T04:33:56Z) - UniS-MMC: Multimodal Classification via Unimodality-supervised
Multimodal Contrastive Learning [29.237813880311943]
本稿では, より信頼性の高いマルチモーダル表現を, 非モーダル予測の弱い監督下で探索する新しいマルチモーダルコントラスト法を提案する。
2つの画像テキスト分類ベンチマークにおける融合特徴を用いた実験結果から,提案手法が現在最先端のマルチモーダル手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-05-16T09:18:38Z) - MCMC Should Mix: Learning Energy-Based Model with Neural Transport
Latent Space MCMC [110.02001052791353]
学習エネルギーベースモデル(EBM)は学習アルゴリズムの内部ループとして学習モデルのMCMCサンプリングを必要とする。
バックボーンモデルの潜伏変数の空間において、モデルは特に単純であることを示す。
論文 参考訳(メタデータ) (2020-06-12T01:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。