論文の概要: Learning Multimodal Latent Space with EBM Prior and MCMC Inference
- arxiv url: http://arxiv.org/abs/2408.10467v1
- Date: Tue, 20 Aug 2024 00:33:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 15:34:22.981451
- Title: Learning Multimodal Latent Space with EBM Prior and MCMC Inference
- Title(参考訳): EBMプリミティブとMCMC推論によるマルチモーダル遅延空間の学習
- Authors: Shiyu Yuan, Carlo Lipizzi, Tian Han,
- Abstract要約: 本稿では,マルチモーダル生成のための潜在空間における表現的エネルギーベースモデル(EBM)とマルコフ・チェイン・モンテカルロ(MCMC)推論とを結合したアプローチを提案する。
- 参考スコア(独自算出の注目度): 4.003600947581215
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal generative models are crucial for various applications. We propose an approach that combines an expressive energy-based model (EBM) prior with Markov Chain Monte Carlo (MCMC) inference in the latent space for multimodal generation. The EBM prior acts as an informative guide, while MCMC inference, specifically through short-run Langevin dynamics, brings the posterior distribution closer to its true form. This method not only provides an expressive prior to better capture the complexity of multimodality but also improves the learning of shared latent variables for more coherent generation across modalities. Our proposed method is supported by empirical experiments, underscoring the effectiveness of our EBM prior with MCMC inference in enhancing cross-modal and joint generative tasks in multimodal contexts.
- Abstract(参考訳): マルチモーダル生成モデルは様々な用途に欠かせない。
本稿では,マルチモーダル生成のための潜在空間における表現的エネルギーベースモデル(EBM)とマルコフ・チェイン・モンテカルロ(MCMC)推論とを結合したアプローチを提案する。
EBMは情報的ガイドとして機能し、MCMC推論は特に短期ランゲヴィン力学を通して、後部分布を真の形に近づける。
この方法は、多様性の複雑さをよりよく捉えるための表現的事前を提供するだけでなく、多様性のコヒーレントな生成のために共有潜在変数の学習を改善する。
提案手法は,マルチモーダルコンテキストにおける相互・共同生成タスクの強化において,MCMC推論に先立ってEMMの有効性を裏付ける実証実験によって支持された。
関連論文リスト
- Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。
我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。
階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。
両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文 参考訳(メタデータ) (2024-07-06T04:36:48Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Learning Energy-Based Prior Model with Diffusion-Amortized MCMC [89.95629196907082]
非収束短距離MCMCを用いた事前及び後方サンプリングによる潜時空間EMM学習の一般的な実践は、さらなる進歩を妨げている。
本稿では,MCMCサンプリングのための単純だが効果的な拡散型アモータイズ手法を導入し,それに基づく潜時空間EMMのための新しい学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-05T00:23:34Z) - Learning Energy-Based Models by Cooperative Diffusion Recovery Likelihood [64.95663299945171]
高次元データに基づくエネルギーベースモデル(EBM)の訓練は、困難かつ時間を要する可能性がある。
EBMと、GANや拡散モデルのような他の生成フレームワークとの間には、サンプル品質に顕著なギャップがある。
本研究では,協調拡散回復可能性 (CDRL) を提案する。
論文 参考訳(メタデータ) (2023-09-10T22:05:24Z) - Large AI Model Empowered Multimodal Semantic Communications [48.73159237649128]
本稿では,Large AI Model-based Multimodal SC (LAMMSC) フレームワークを提案する。
まず、条件付きマルチモーダルアライメント(MMA)を提案し、マルチモーダルデータと非モーダルデータ間の変換を可能にする。
次に、パーソナライズされたLLMベースの知識ベース(LKB)を提案し、ユーザがパーソナライズされたセマンティック抽出やリカバリを行うことができる。
最後に,CGE(Generative Adversarial Network-based Channel Estimation)を用いて,無線チャネルの状態情報を推定する。
論文 参考訳(メタデータ) (2023-09-03T19:24:34Z) - Revisiting Disentanglement and Fusion on Modality and Context in
Conversational Multimodal Emotion Recognition [81.2011058113579]
特徴の多様性と会話の文脈化は、特徴の絡み合いと融合の段階において、同時に適切にモデル化されるべきである。
マルチモーダル・コンテキスト統合のためのコントリビューション・アウェア・フュージョン・メカニズム(CFM)とコンテキスト・リフュージョン・メカニズム(CRM)を提案する。
我々のシステムは、新しい最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2023-08-08T18:11:27Z) - Chain-of-Thought Prompt Distillation for Multimodal Named Entity
Recognition and Multimodal Relation Extraction [8.169359626365619]
思考のテキストチェーン(CoT) -- 中間推論ステップのシーケンスを生成します。
本稿では,大規模言語モデルからのコモンセンス推論能力を同化するための新しい条件付きプロンプト蒸留法を提案する。
我々のアプローチは最先端の精度を達成し、解釈可能性、データ効率、ドメイン間の一般化に関する多くの利点を示す。
論文 参考訳(メタデータ) (2023-06-25T04:33:56Z) - UniS-MMC: Multimodal Classification via Unimodality-supervised
Multimodal Contrastive Learning [29.237813880311943]
本稿では, より信頼性の高いマルチモーダル表現を, 非モーダル予測の弱い監督下で探索する新しいマルチモーダルコントラスト法を提案する。
2つの画像テキスト分類ベンチマークにおける融合特徴を用いた実験結果から,提案手法が現在最先端のマルチモーダル手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-05-16T09:18:38Z) - Generalizing Multimodal Variational Methods to Sets [35.69942798534849]
本稿では,マルチモーダル潜在空間を学習するために,Set Multimodal VAE(SMVAE)と呼ばれる新しい変分法を提案する。
共同モダリティ後部分布を直接モデル化することにより、提案したSMVAEは、複数のモダリティ間で情報を交換し、分解による欠点を補うことを学習する。
論文 参考訳(メタデータ) (2022-12-19T23:50:19Z) - MCMC Should Mix: Learning Energy-Based Model with Neural Transport
Latent Space MCMC [110.02001052791353]
学習エネルギーベースモデル(EBM)は学習アルゴリズムの内部ループとして学習モデルのMCMCサンプリングを必要とする。
バックボーンモデルの潜伏変数の空間において、モデルは特に単純であることを示す。
論文 参考訳(メタデータ) (2020-06-12T01:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。