論文の概要: Rethinking the Text-Vision Reasoning Imbalance in MLLMs through the Lens of Training Recipes
- arxiv url: http://arxiv.org/abs/2510.22836v1
- Date: Sun, 26 Oct 2025 21:06:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.386739
- Title: Rethinking the Text-Vision Reasoning Imbalance in MLLMs through the Lens of Training Recipes
- Title(参考訳): MLLMにおけるテキストビジョン推論不均衡の再考
- Authors: Guanyu Yao, Qiucheng Wu, Yang Zhang, Zhaowen Wang, Handong Zhao, Shiyu Chang,
- Abstract要約: MLLM(Multimodal large language model)は、視覚・言語タスクにおいて強力な機能を示す。
近年の研究では、視覚的・テキスト的モダリティ間の推論能力の不均衡が指摘されている。
我々は、この現象を、テキスト中心と視覚中心の入力のパフォーマンス格差として定義される、テクティモダリティギャップと呼ぶ。
- 参考スコア(独自算出の注目度): 54.374410871041164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have demonstrated strong capabilities on vision-and-language tasks. However, recent findings reveal an imbalance in their reasoning capabilities across visual and textual modalities. Specifically, current MLLMs often over-rely on textual cues while under-attending to visual content, resulting in suboptimal performance on tasks that require genuine visual reasoning. We refer to this phenomenon as the \textit{modality gap}, defined as the performance disparity between text-centric and vision-centric inputs. In this paper, we analyze the modality gap through the lens of training recipes. We first show that existing training recipes tend to amplify this gap. Then, we systematically explore strategies to bridge it from two complementary perspectives: data and loss design. Our findings provide insights into developing training recipes that mitigate the modality gap and promote more balanced multimodal reasoning. Our code is publicly available at https://github.com/UCSB-NLP-Chang/Bridging-Modality-Gap.
- Abstract(参考訳): MLLM(Multimodal large language model)は、視覚・言語タスクにおいて強力な機能を示す。
しかし,近年の研究では,視覚的・テキスト的モダリティ間の推論能力の不均衡が指摘されている。
特に、現在のMLLMは、視覚的コンテンツに過度に依存しながらテキストの手がかりに過度に頼り、真の視覚的推論を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
この現象を「textit{modality gap}」と呼び、テキスト中心と視覚中心の入力のパフォーマンス格差として定義する。
本稿では,学習レシピのレンズを通してモダリティギャップを分析する。
まず、既存のトレーニングレシピがこのギャップを増幅する傾向があることを示す。
次に、データと損失設計という2つの相補的な視点からそれをブリッジする戦略を体系的に検討する。
本研究は、モダリティギャップを緩和し、よりバランスの取れたマルチモーダル推論を促進するトレーニングレシピの開発に関する知見を提供する。
私たちのコードはhttps://github.com/UCSB-NLP-Chang/Bridging-Modality-Gapで公開されています。
関連論文リスト
- True Multimodal In-Context Learning Needs Attention to the Visual Context [69.63677595066012]
MLLM(Multimodal Large Language Models)は、新しいタスクに適応したMICL(Multimodal In-Context Learning)を実現する。
現在のMLLMは、視覚的手がかりを無視し、テキストパターンを過度に無視する傾向にあり、真のマルチモーダル適応よりも単なるテキスト模倣に繋がる。
視覚的コンテキストへのモデルへの参加を促す,効率的な微調整戦略であるDynamic Attention Reallocation (DARA)を紹介した。
論文 参考訳(メタデータ) (2025-07-21T17:08:18Z) - Integrating Visual Interpretation and Linguistic Reasoning for Math Problem Solving [61.992824291296444]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。
本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文 参考訳(メタデータ) (2025-05-23T08:18:00Z) - Improving Fine-grained Visual Understanding in VLMs through Text-Only Training [0.0]
テキストのみの学習を通して視覚言語モデル(VLM)におけるきめ細かい視覚的理解を高める可能性について検討する。
我々は2つの異なる領域、細粒度の種分類と文化的な視覚的理解タスクについて包括的な実験を行った。
その結果,テキストのみのトレーニングは従来の画像テキスト学習に匹敵するが,計算コストは大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2024-12-17T14:18:50Z) - Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - Improving Visual Commonsense in Language Models via Multiple Image Generation [41.565399860320966]
既存の大規模言語モデル(LLM)は、主にテキストデータのみを使用して訓練されている。
視覚言語モデルは視覚的に指向するタスクに優れており、基本的なコモンセンス推論のような視覚的でないタスクでは失敗することが多い。
この分散は、基本的なテキストベースの言語推論と堅牢な視覚的理解の統合という、重要な課題を浮き彫りにする。
論文 参考訳(メタデータ) (2024-06-19T15:17:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。