Fugu-MT 論文翻訳(概要): Learning Multimodal Latent Space with EBM Prior and MCMC Inference

論文の概要: Learning Multimodal Latent Space with EBM Prior and MCMC Inference

arxiv url: http://arxiv.org/abs/2408.10467v1
Date: Tue, 20 Aug 2024 00:33:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-21 15:34:22.981451
Title: Learning Multimodal Latent Space with EBM Prior and MCMC Inference
Title（参考訳）: EBMプリミティブとMCMC推論によるマルチモーダル遅延空間の学習
Authors: Shiyu Yuan, Carlo Lipizzi, Tian Han,
Abstract要約: 本稿では,マルチモーダル生成のための潜在空間における表現的エネルギーベースモデル(EBM)とマルコフ・チェイン・モンテカルロ(MCMC)推論とを結合したアプローチを提案する。
参考スコア（独自算出の注目度）: 4.003600947581215
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Multimodal generative models are crucial for various applications. We propose an approach that combines an expressive energy-based model (EBM) prior with Markov Chain Monte Carlo (MCMC) inference in the latent space for multimodal generation. The EBM prior acts as an informative guide, while MCMC inference, specifically through short-run Langevin dynamics, brings the posterior distribution closer to its true form. This method not only provides an expressive prior to better capture the complexity of multimodality but also improves the learning of shared latent variables for more coherent generation across modalities. Our proposed method is supported by empirical experiments, underscoring the effectiveness of our EBM prior with MCMC inference in enhancing cross-modal and joint generative tasks in multimodal contexts.
Abstract（参考訳）: マルチモーダル生成モデルは様々な用途に欠かせない。本稿では,マルチモーダル生成のための潜在空間における表現的エネルギーベースモデル(EBM)とマルコフ・チェイン・モンテカルロ(MCMC)推論とを結合したアプローチを提案する。 EBMは情報的ガイドとして機能し、MCMC推論は特に短期ランゲヴィン力学を通して、後部分布を真の形に近づける。この方法は、多様性の複雑さをよりよく捉えるための表現的事前を提供するだけでなく、多様性のコヒーレントな生成のために共有潜在変数の学習を改善する。提案手法は,マルチモーダルコンテキストにおける相互・共同生成タスクの強化において,MCMC推論に先立ってEMMの有効性を裏付ける実証実験によって支持された。

関連論文リスト

Amplifying Prominent Representations in Multimodal Learning via Variational Dirichlet Process [55.91649771370862]
ディリクレ過程(DP)混合モデルは、最も顕著な特徴を増幅できる強力な非パラメトリック法である。本稿では,DP駆動型マルチモーダル学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-10-23T16:53:24Z)
NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。 NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文参考訳（メタデータ） (2025-10-15T16:25:18Z)
Resource-Limited Joint Multimodal Sentiment Reasoning and Classification via Chain-of-Thought Enhancement and Distillation [22.722731231389393]
最近のアプローチは、主にパラメータ重(マルチモーダル)大規模言語モデル(LLM)の知識と推論能力を活用する。本稿では,資源制限環境における配置制約に対処するマルチモーダル・チェーン・オブ・スチューデント・推論蒸留モデル MulCoT-RD を提案する。 4つのデータセットの実験により、3Bパラメータのみを持つMulCoT-RDは、堅牢な一般化と拡張された解釈可能性を示しながら、JMSRC上での強い性能を実現することが示された。
論文参考訳（メタデータ） (2025-08-07T10:23:14Z)
Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey [124.23247710880008]
マルチモーダルCoT (MCoT) 推論は近年大きな研究の注目を集めている。既存のMCoT研究は、画像、ビデオ、音声、オーディオ、3D、構造化データの課題に対処する様々な手法を設計している。我々はMCoT推論に関する最初の体系的な調査を行い、関連する基礎概念と定義を解明する。
論文参考訳（メタデータ） (2025-03-16T18:39:13Z)
The Devil Is in the Details: Tackling Unimodal Spurious Correlations for Generalizable Multimodal Reward Models [31.81567038783558]
マルチモーダル・リワードモデル(MM-RM)は,大規模言語モデル(LLM)と人間の嗜好の整合に不可欠である。 MM-RMは、不動の突発的相関に依存するため、アウト・オブ・ディストリビューションデータへの一般化に苦慮することが多い。本稿では,この問題を動的にトレーニングサンプルを再重み付けすることで軽減する,ショートカット対応MM-RM学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-03-05T02:37:41Z)
Asymmetric Reinforcing against Multi-modal Representation Bias [59.685072206359855]
マルチモーダル表現バイアス(ARM)に対する非対称強化法を提案する。我々のARMは、条件付き相互情報を通じて支配的なモダリティを表現する能力を維持しながら、弱いモダリティを動的に強化する。我々はマルチモーダル学習の性能を著しく改善し、不均衡なマルチモーダル学習の軽減に顕著な進展をもたらした。
論文参考訳（メタデータ） (2025-01-02T13:00:06Z)
Learning Multimodal Latent Generative Models with Energy-Based Prior [3.6648642834198797]
EBMに潜時生成モデルを統合する新しいフレームワークを提案する。このアプローチは、より表現力があり、情報的であり、複数のモダリティにまたがる情報のより良いキャプチャをもたらす。
論文参考訳（メタデータ） (2024-09-30T01:38:26Z)
Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文参考訳（メタデータ） (2024-07-06T04:36:48Z)
Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文参考訳（メタデータ） (2024-02-20T06:38:10Z)
Learning Energy-Based Prior Model with Diffusion-Amortized MCMC [89.95629196907082]
非収束短距離MCMCを用いた事前及び後方サンプリングによる潜時空間EMM学習の一般的な実践は、さらなる進歩を妨げている。本稿では,MCMCサンプリングのための単純だが効果的な拡散型アモータイズ手法を導入し,それに基づく潜時空間EMMのための新しい学習アルゴリズムを開発した。
論文参考訳（メタデータ） (2023-10-05T00:23:34Z)
Learning Energy-Based Models by Cooperative Diffusion Recovery Likelihood [64.95663299945171]
高次元データに基づくエネルギーベースモデル(EBM)の訓練は、困難かつ時間を要する可能性がある。 EBMと、GANや拡散モデルのような他の生成フレームワークとの間には、サンプル品質に顕著なギャップがある。本研究では,協調拡散回復可能性 (CDRL) を提案する。
論文参考訳（メタデータ） (2023-09-10T22:05:24Z)
Revisiting Disentanglement and Fusion on Modality and Context in Conversational Multimodal Emotion Recognition [81.2011058113579]
特徴の多様性と会話の文脈化は、特徴の絡み合いと融合の段階において、同時に適切にモデル化されるべきである。マルチモーダル・コンテキスト統合のためのコントリビューション・アウェア・フュージョン・メカニズム(CFM)とコンテキスト・リフュージョン・メカニズム(CRM)を提案する。我々のシステムは、新しい最先端のパフォーマンスを一貫して達成する。
論文参考訳（メタデータ） (2023-08-08T18:11:27Z)
Chain-of-Thought Prompt Distillation for Multimodal Named Entity Recognition and Multimodal Relation Extraction [8.169359626365619]
思考のテキストチェーン(CoT) -- 中間推論ステップのシーケンスを生成します。本稿では,大規模言語モデルからのコモンセンス推論能力を同化するための新しい条件付きプロンプト蒸留法を提案する。我々のアプローチは最先端の精度を達成し、解釈可能性、データ効率、ドメイン間の一般化に関する多くの利点を示す。
論文参考訳（メタデータ） (2023-06-25T04:33:56Z)
Provable Dynamic Fusion for Low-Quality Multimodal Data [94.39538027450948]
動的マルチモーダル融合は、有望な学習パラダイムとして現れる。広く使われているにもかかわらず、この分野の理論的正当化は依然として顕著に欠落している。本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。 QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。
論文参考訳（メタデータ） (2023-06-03T08:32:35Z)
UniS-MMC: Multimodal Classification via Unimodality-supervised Multimodal Contrastive Learning [29.237813880311943]
本稿では, より信頼性の高いマルチモーダル表現を, 非モーダル予測の弱い監督下で探索する新しいマルチモーダルコントラスト法を提案する。 2つの画像テキスト分類ベンチマークにおける融合特徴を用いた実験結果から,提案手法が現在最先端のマルチモーダル手法より優れていることが示された。
論文参考訳（メタデータ） (2023-05-16T09:18:38Z)
MCMC Should Mix: Learning Energy-Based Model with Neural Transport Latent Space MCMC [110.02001052791353]
学習エネルギーベースモデル(EBM)は学習アルゴリズムの内部ループとして学習モデルのMCMCサンプリングを必要とする。バックボーンモデルの潜伏変数の空間において、モデルは特に単純であることを示す。
論文参考訳（メタデータ） (2020-06-12T01:25:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。