論文の概要: Multimodal Fusion Balancing Through Game-Theoretic Regularization
- arxiv url: http://arxiv.org/abs/2411.07335v1
- Date: Mon, 11 Nov 2024 19:53:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:19:13.530275
- Title: Multimodal Fusion Balancing Through Game-Theoretic Regularization
- Title(参考訳): ゲーム理論規則化によるマルチモーダル核融合バランシング
- Authors: Konstantinos Kontras, Thomas Strypsteen, Christos Chatzichristos, Paul P. Liang, Matthew Blaschko, Maarten De Vos,
- Abstract要約: アンサンブルのような単純なベースラインを超越したマルチモーダルモデルの訓練には,現在のバランス手法が苦戦していることを示す。
マルチモーダルトレーニングにおけるすべてのモダリティが十分にトレーニングされていること、新しいモダリティからの学習が一貫してパフォーマンスを改善することを保証するにはどうすればよいのか?
本稿では,相互情報(MI)分解にインスパイアされた新たな損失成分であるMCRを提案する。
- 参考スコア(独自算出の注目度): 3.2065271838977627
- License:
- Abstract: Multimodal learning can complete the picture of information extraction by uncovering key dependencies between data sources. However, current systems fail to fully leverage multiple modalities for optimal performance. This has been attributed to modality competition, where modalities strive for training resources, leaving some underoptimized. We show that current balancing methods struggle to train multimodal models that surpass even simple baselines, such as ensembles. This raises the question: how can we ensure that all modalities in multimodal training are sufficiently trained, and that learning from new modalities consistently improves performance? This paper proposes the Multimodal Competition Regularizer (MCR), a new loss component inspired by mutual information (MI) decomposition designed to prevent the adverse effects of competition in multimodal training. Our key contributions are: 1) Introducing game-theoretic principles in multimodal learning, where each modality acts as a player competing to maximize its influence on the final outcome, enabling automatic balancing of the MI terms. 2) Refining lower and upper bounds for each MI term to enhance the extraction of task-relevant unique and shared information across modalities. 3) Suggesting latent space permutations for conditional MI estimation, significantly improving computational efficiency. MCR outperforms all previously suggested training strategies and is the first to consistently improve multimodal learning beyond the ensemble baseline, clearly demonstrating that combining modalities leads to significant performance gains on both synthetic and large real-world datasets.
- Abstract(参考訳): マルチモーダル学習は、データソース間の重要な依存関係を明らかにすることで、情報抽出のイメージを完遂することができる。
しかし、現在のシステムは最適な性能のために複数のモダリティを完全に活用することができない。
これはモダリティコンペティションによるもので、モダリティはトレーニングリソースのために努力し、いくつかの過小評価を残している。
アンサンブルのような単純なベースラインを超越したマルチモーダルモデルの訓練には,現在のバランス手法が苦戦していることを示す。
マルチモーダルトレーニングにおけるすべてのモダリティが十分にトレーニングされていること、新しいモダリティからの学習が一貫してパフォーマンスを改善することを保証するにはどうすればよいのか?
本稿では,MCR(Multimodal Competition Regularizer)を提案する。これは相互情報(MI)分解にインスパイアされた新たな損失成分であり,マルチモーダルトレーニングにおける競合の悪影響を防ぐために設計されている。
私たちの主な貢献は次のとおりです。
1)マルチモーダル学習においてゲーム理論の原則を導入し,各モダリティが最終結果への影響を最大化するために競技者として機能し,MI項の自動バランスを可能にする。
2)各MI項の下限と上限を精錬し,タスク関連一意・共有情報の抽出をモダリティにわたって強化する。
3) 条件付きMI推定における潜時空間置換の提案により, 計算効率が大幅に向上した。
MCRは、これまで提案されていたトレーニング戦略をすべて上回り、アンサンブルベースラインを超えて、マルチモーダル学習を一貫して改善する最初のものである。
関連論文リスト
- On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Modality Invariant Multimodal Learning to Handle Missing Modalities: A Single-Branch Approach [29.428067329993173]
そこで本研究では,モダリティの欠落の影響を受けにくい多モーダル学習手法を提案する。
性能を最大化するためにモダリティ間表現を学ぶために、複数のモダリティにまたがる重みを共有するシングルブランチネットワークで構成されている。
提案手法は,すべてのモダリティが存在する場合や,既存の最先端手法と比較して,トレーニングやテスト中にモダリティが欠落する場合に優れた性能が得られる。
論文 参考訳(メタデータ) (2024-08-14T10:32:16Z) - Modality-Balanced Learning for Multimedia Recommendation [21.772064939915214]
本稿では,不均衡問題を解消し,全てのモダリティを最大限に活用するための対実的知識蒸留法を提案する。
また,教師からより広義の知識を習得するために,多モーダルな学生を指導するために,新たな総合的・特異な蒸留損失を設計する。
我々の手法は、遅延核融合と早期核融合の両方のバックボーンのためのプラグイン・アンド・プレイモジュールとして機能する。
論文 参考訳(メタデータ) (2024-07-26T07:53:01Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - On Uni-Modal Feature Learning in Supervised Multi-Modal Learning [21.822251958013737]
マルチモーダルデータの特徴(つまり学習された表現)を,1)ユニモーダルな特徴と2)相互モーダルな相互作用からしか学べないペア化された特徴にまとめる。
簡単な誘導戦略により、様々なマルチモーダルデータセット上の他の複雑なレイトフュージョン法や中間フュージョン法に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-05-02T07:15:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。