論文の概要: Mitigating Modal Imbalance in Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2510.02608v1
- Date: Thu, 02 Oct 2025 22:58:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.199971
- Title: Mitigating Modal Imbalance in Multimodal Reasoning
- Title(参考訳): マルチモーダル推論におけるモーダル不均衡の緩和
- Authors: Chen Henry Wu, Neil Kale, Aditi Raghunathan,
- Abstract要約: ファンデーションモデル(FM)は、コンピュータ利用エージェントのような現実世界のタスクに多様なモダリティを統合する必要がある。
我々は、モダリティにまたがる矛盾する証拠が提示される、モダリティ間の対立に関するFMについて研究する。
実験の結果,FMは単一モーダリティから構成される単一モーダリティのコンフリクトを認識できることがわかったが,証拠がモーダリティに分割された場合,その比率は3%以下に低下した。
- 参考スコア(独自算出の注目度): 27.76520123641252
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Foundation models (FMs) deployed in real-world tasks such as computer-use agents must integrate diverse modalities. How good are FMs at performing joint reasoning, simultaneously reasoning over multiple modalities, especially when the modalities interact and relate to each other to form cross-modal context? To better understand this problem, we study FMs on cross-modal conflicts: scenarios where conflicting evidence is presented across modalities. This allows us to examine whether FMs prioritize one modality over another or reason jointly to reconcile the conflict. Our experiments reveal that FMs can recognize conflicts in unimodal contexts, composed of a single modality, 90% of the time, but the ratio falls as low as 3% when evidence is split across modalities -- similar observations hold in cross-lingual contexts, composed of multiple languages. We trace this failure to cross-modal attention imbalance, showing that FMs exhibit extreme asymmetry in attention scores, disproportionately prioritizing certain modalities. We show that cross-modal attention imbalance does not go away by simply scaling up multimodal or multilingual datasets blindly, since they lack training examples that explicitly require cross-modal reasoning. We demonstrate that even a simple and scalable method of explicitly combining multiple modalities within each training instance significantly reduces attention imbalance. Reduced attention imbalance directly translates to improved downstream performance on several vision-language benchmarks. Our findings underscore the importance of systematically addressing cross-modal contexts to build reliable foundation models.
- Abstract(参考訳): コンピュータ利用エージェントのような現実世界のタスクにデプロイされるファンデーションモデル(FM)は、多様なモダリティを統合する必要がある。
FMは、複数のモーダルを同時に推論し、特にモーダルが相互に相互作用し、相互に関連し、モーダルのコンテキストを形成するのに、いかに優れているか?
この問題をより深く理解するために, 異種間衝突に関するFMについて検討する。
これにより、FMが他方よりも一方のモダリティを優先するか、あるいは競合を和解させるために共同で理由を調べることができる。
実験の結果、FMは単一モーダルからなる単一モーダルの文脈で競合を認識することができるが、証拠が複数のモーダルで分割された場合、その比率は3%以下となる。
この失敗から、FMが注意スコアにおいて極端に非対称性を示し、特定のモダリティを不均等に優先していることが示される。
クロスモーダルな推論を明示的に要求するトレーニング例が欠如しているため、マルチモーダルデータセットやマルチ言語データセットを盲目的にスケールアップすることで、クロスモーダルなアテンションの不均衡は解消しないことを示す。
各トレーニングインスタンス内で複数のモダリティを明示的に組み合わせるシンプルでスケーラブルな方法でさえ、注意不均衡を著しく低減することを示した。
注意不均衡の低減は、いくつかのヴィジュアルベンチマークにおけるダウンストリーム性能の改善に直接変換される。
本研究は, 信頼性の高い基礎モデルを構築するために, クロスモーダルな文脈を体系的に扱うことの重要性を浮き彫りにした。
関連論文リスト
- Compose and Fuse: Revisiting the Foundational Bottlenecks in Multimodal Reasoning [49.17801010041155]
MLLM(Multimodal large language model)は、テキスト、ビジョン、オーディオなどの多様な入力を統合することで推論を強化することを約束する。
しかし、追加のモダリティがパフォーマンスを損なうかどうかについての報告は相反する。
我々は、多モーダル推論を6つの相互作用パターンに分類し、事実がどのようにモダリティに分散され、論理的に組み合わせられるかを決定する。
論文 参考訳(メタデータ) (2025-09-28T08:46:11Z) - CMR-SPB: Cross-Modal Multi-Hop Reasoning over Text, Image, and Speech with Path Balance [10.843417240658992]
クロスモーダル・マルチホップ推論(CMR)は、マルチモーダル・大規模言語モデル(MLLM)の重要かつ未探索の能力である。
この能力を評価するための既存のベンチマークには、重大な欠点がある、と我々は主張する。
CMR-SPB (Cross-Modal Multi-Hop Reasoning over Text, Image and Speech with Path Balance) という新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-08-22T08:17:31Z) - When Language Overrules: Revealing Text Dominance in Multimodal Large Language Models [10.106066580331584]
我々は,画像,ビデオ,オーディオ,時系列,グラフなど多種多様なデータモダリティにまたがるテキスト優位性を,初めて体系的に調査した。
奥行き分析では,非テクスチュアルなモダリティにおける高度トークン冗長性からの注意の希釈,融合アーキテクチャ設計の影響,テキスト入力を暗黙的に好むタスクの定式化という,3つの根本原因を明らかにした。
論文 参考訳(メタデータ) (2025-08-14T11:44:52Z) - Robust Multimodal Large Language Models Against Modality Conflict [94.12341487880465]
マルチモーダル大言語モデル(MLLM)は、現実のシナリオにおいて幻覚を起こす傾向がある。
我々は、MLLMをジレンマに配置し、幻覚に直接導く異なるモダリティからの入力における固有の矛盾について研究する。
モダリティ衝突による幻覚を緩和する3つの方法が提案されている。
論文 参考訳(メタデータ) (2025-07-09T11:18:38Z) - Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models [26.17300490736624]
MLLM(Multimodal Large Language Models)は、一貫した視覚・テキスト入力で主に訓練され、テストされる。
本稿では,MLLMの意味的ミスマッチの検出と推論能力を評価するためのマルチモーダル不整合推論ベンチマークを提案する。
我々は6つの最先端MLLMを評価し、o1のような専用マルチモーダル推論能力を持つモデルは、その性能を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-22T01:52:37Z) - Asymmetric Reinforcing against Multi-modal Representation Bias [59.685072206359855]
マルチモーダル表現バイアス(ARM)に対する非対称強化法を提案する。
我々のARMは、条件付き相互情報を通じて支配的なモダリティを表現する能力を維持しながら、弱いモダリティを動的に強化する。
我々はマルチモーダル学習の性能を著しく改善し、不均衡なマルチモーダル学習の軽減に顕著な進展をもたらした。
論文 参考訳(メタデータ) (2025-01-02T13:00:06Z) - Rebalanced Vision-Language Retrieval Considering Structure-Aware Distillation [44.03643049208946]
視覚言語検索は、他のモダリティからのクエリに基づいて、類似したインスタンスを1つのモダリティで検索することを目的としている。
主な目的は、潜在共通空間におけるクロスモーダルマッチング表現を学習することである。
不均衡が検索性能に与える影響は未解決のままである。
論文 参考訳(メタデータ) (2024-12-14T09:10:36Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。