Fugu-MT 論文翻訳(概要): Multimodal Fusion Balancing Through Game-Theoretic Regularization

論文の概要: Multimodal Fusion Balancing Through Game-Theoretic Regularization

arxiv url: http://arxiv.org/abs/2411.07335v1
Date: Mon, 11 Nov 2024 19:53:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:46.678141
Title: Multimodal Fusion Balancing Through Game-Theoretic Regularization
Title（参考訳）: ゲーム理論規則化によるマルチモーダル核融合バランシング
Authors: Konstantinos Kontras, Thomas Strypsteen, Christos Chatzichristos, Paul P. Liang, Matthew Blaschko, Maarten De Vos,
Abstract要約: アンサンブルのような単純なベースラインを超越したマルチモーダルモデルの訓練には,現在のバランス手法が苦戦していることを示す。マルチモーダルトレーニングにおけるすべてのモダリティが十分にトレーニングされていること、新しいモダリティからの学習が一貫してパフォーマンスを改善することを保証するにはどうすればよいのか? 本稿では,相互情報(MI)分解にインスパイアされた新たな損失成分であるMCRを提案する。
参考スコア（独自算出の注目度）: 3.2065271838977627
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Multimodal learning can complete the picture of information extraction by uncovering key dependencies between data sources. However, current systems fail to fully leverage multiple modalities for optimal performance. This has been attributed to modality competition, where modalities strive for training resources, leaving some underoptimized. We show that current balancing methods struggle to train multimodal models that surpass even simple baselines, such as ensembles. This raises the question: how can we ensure that all modalities in multimodal training are sufficiently trained, and that learning from new modalities consistently improves performance? This paper proposes the Multimodal Competition Regularizer (MCR), a new loss component inspired by mutual information (MI) decomposition designed to prevent the adverse effects of competition in multimodal training. Our key contributions are: 1) Introducing game-theoretic principles in multimodal learning, where each modality acts as a player competing to maximize its influence on the final outcome, enabling automatic balancing of the MI terms. 2) Refining lower and upper bounds for each MI term to enhance the extraction of task-relevant unique and shared information across modalities. 3) Suggesting latent space permutations for conditional MI estimation, significantly improving computational efficiency. MCR outperforms all previously suggested training strategies and is the first to consistently improve multimodal learning beyond the ensemble baseline, clearly demonstrating that combining modalities leads to significant performance gains on both synthetic and large real-world datasets.
Abstract（参考訳）: マルチモーダル学習は、データソース間の重要な依存関係を明らかにすることで、情報抽出のイメージを完遂することができる。しかし、現在のシステムは最適な性能のために複数のモダリティを完全に活用することができない。これはモダリティコンペティションによるもので、モダリティはトレーニングリソースのために努力し、いくつかの過小評価を残している。アンサンブルのような単純なベースラインを超越したマルチモーダルモデルの訓練には,現在のバランス手法が苦戦していることを示す。マルチモーダルトレーニングにおけるすべてのモダリティが十分にトレーニングされていること、新しいモダリティからの学習が一貫してパフォーマンスを改善することを保証するにはどうすればよいのか? 本稿では,MCR(Multimodal Competition Regularizer)を提案する。これは相互情報(MI)分解にインスパイアされた新たな損失成分であり,マルチモーダルトレーニングにおける競合の悪影響を防ぐために設計されている。私たちの主な貢献は次のとおりです。 1)マルチモーダル学習においてゲーム理論の原則を導入し,各モダリティが最終結果への影響を最大化するために競技者として機能し,MI項の自動バランスを可能にする。 2)各MI項の下限と上限を精錬し,タスク関連一意・共有情報の抽出をモダリティにわたって強化する。 3) 条件付きMI推定における潜時空間置換の提案により, 計算効率が大幅に向上した。 MCRは、これまで提案されていたトレーニング戦略をすべて上回り、アンサンブルベースラインを超えて、マルチモーダル学習を一貫して改善する最初のものである。

関連論文リスト

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition [17.332141776831513]
マルチモーダル感情認識(MER)は、実用上不完全なマルチモーダルに遭遇することが多い。そこで本研究では,MCULoRA(MCULoRA)と命名されたモダリティの組み合わせに基づく,一様疎結合な動的低ランク適応手法を提案する。
論文参考訳（メタデータ） (2025-07-15T11:15:35Z)
Improving Multimodal Learning Balance and Sufficiency through Data Remixing [14.282792733217653]
弱いモダリティを強制する方法は、単調な充足性とマルチモーダルなバランスを達成できない。マルチモーダルデータのデカップリングや,各モーダルに対するハードサンプルのフィルタリングなど,モダリティの不均衡を軽減するマルチモーダルデータリミックスを提案する。提案手法は既存の手法とシームレスに統合され,CREMADでは約6.50%$uparrow$,Kineetic-Soundsでは3.41%$uparrow$の精度が向上する。
論文参考訳（メタデータ） (2025-06-13T08:01:29Z)
The Devil Is in the Details: Tackling Unimodal Spurious Correlations for Generalizable Multimodal Reward Models [31.81567038783558]
マルチモーダル・リワードモデル(MM-RM)は,大規模言語モデル(LLM)と人間の嗜好の整合に不可欠である。 MM-RMは、不動の突発的相関に依存するため、アウト・オブ・ディストリビューションデータへの一般化に苦慮することが多い。本稿では,この問題を動的にトレーニングサンプルを再重み付けすることで軽減する,ショートカット対応MM-RM学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-03-05T02:37:41Z)
Asymmetric Reinforcing against Multi-modal Representation Bias [59.685072206359855]
マルチモーダル表現バイアス(ARM)に対する非対称強化法を提案する。我々のARMは、条件付き相互情報を通じて支配的なモダリティを表現する能力を維持しながら、弱いモダリティを動的に強化する。我々はマルチモーダル学習の性能を著しく改善し、不均衡なマルチモーダル学習の軽減に顕著な進展をもたらした。
論文参考訳（メタデータ） (2025-01-02T13:00:06Z)
LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。 PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。 PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文参考訳（メタデータ） (2024-10-26T13:19:57Z)
On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文参考訳（メタデータ） (2024-10-15T13:15:50Z)
Modality Invariant Multimodal Learning to Handle Missing Modalities: A Single-Branch Approach [29.428067329993173]
そこで本研究では,モダリティの欠落の影響を受けにくい多モーダル学習手法を提案する。性能を最大化するためにモダリティ間表現を学ぶために、複数のモダリティにまたがる重みを共有するシングルブランチネットワークで構成されている。提案手法は,すべてのモダリティが存在する場合や,既存の最先端手法と比較して,トレーニングやテスト中にモダリティが欠落する場合に優れた性能が得られる。
論文参考訳（メタデータ） (2024-08-14T10:32:16Z)
Modality-Balanced Learning for Multimedia Recommendation [21.772064939915214]
本稿では,不均衡問題を解消し,全てのモダリティを最大限に活用するための対実的知識蒸留法を提案する。また,教師からより広義の知識を習得するために,多モーダルな学生を指導するために,新たな総合的・特異な蒸留損失を設計する。我々の手法は、遅延核融合と早期核融合の両方のバックボーンのためのプラグイン・アンド・プレイモジュールとして機能する。
論文参考訳（メタデータ） (2024-07-26T07:53:01Z)
Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。 MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文参考訳（メタデータ） (2023-11-17T18:57:40Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
Improving Discriminative Multi-Modal Learning with Large-Scale Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。 MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文参考訳（メタデータ） (2023-10-08T15:01:54Z)
Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文参考訳（メタデータ） (2023-06-22T10:53:10Z)
On Uni-Modal Feature Learning in Supervised Multi-Modal Learning [21.822251958013737]
マルチモーダルデータの特徴(つまり学習された表現)を,1)ユニモーダルな特徴と2)相互モーダルな相互作用からしか学べないペア化された特徴にまとめる。簡単な誘導戦略により、様々なマルチモーダルデータセット上の他の複雑なレイトフュージョン法や中間フュージョン法に匹敵する結果が得られることを示す。
論文参考訳（メタデータ） (2023-05-02T07:15:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。