論文の概要: What MLLMs Learn about When they Learn about Multimodal Reasoning: Perception, Reasoning, or their Integration?
- arxiv url: http://arxiv.org/abs/2510.01719v1
- Date: Thu, 02 Oct 2025 06:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.031092
- Title: What MLLMs Learn about When they Learn about Multimodal Reasoning: Perception, Reasoning, or their Integration?
- Title(参考訳): マルチモーダル推論(multimodal Reasoning)について学ぶとき、MLLMはどのようなことを学んだか?
- Authors: Jiwan Chung, Neel Joshi, Pratyusha Sharma, Youngjae Yu, Vibhav Vineet,
- Abstract要約: マルチモーダル推論モデルは、最近、オリンピアドレベルの幾何学のような挑戦的な領域を約束している。
マルチモーダル推論のサブスキルを切り離すために設計されたベンチマークであるMathLensを紹介する。
- 参考スコア(独自算出の注目度): 46.836858357488296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal reasoning models have recently shown promise on challenging domains such as olympiad-level geometry, yet their evaluation remains dominated by aggregate accuracy, a single score that obscures where and how models are improving. We introduce MathLens, a benchmark designed to disentangle the subskills of multimodal reasoning while preserving the complexity of textbook-style geometry problems. The benchmark separates performance into three components: Perception: extracting information from raw inputs, Reasoning: operating on available information, and Integration: selecting relevant perceptual evidence and applying it within reasoning. To support each test, we provide annotations: visual diagrams, textual descriptions to evaluate reasoning in isolation, controlled questions that require both modalities, and probes for fine-grained perceptual skills, all derived from symbolic specifications of the problems to ensure consistency and robustness. Our analysis reveals that different training approaches have uneven effects: First, reinforcement learning chiefly strengthens perception, especially when supported by textual supervision, while textual SFT indirectly improves perception through reflective reasoning. Second, reasoning improves only in tandem with perception. Third, integration remains the weakest capacity, with residual errors concentrated there once other skills advance. Finally, robustness diverges: RL improves consistency under diagram variation, whereas multimodal SFT reduces it through overfitting. We will release all data and experimental logs.
- Abstract(参考訳): マルチモーダル推論モデルは、最近、オリンピアドレベルの幾何学のような挑戦的な領域について、公約を示しているが、それらの評価は、モデルがどのように改善しているかを曖昧にする単一のスコアである集約精度に支配されている。
教科書形式の幾何学問題を複雑に保ちつつ,マルチモーダル推論のサブスキルを乱すように設計されたベンチマークであるMathLensを紹介する。
このベンチマークはパフォーマンスを3つのコンポーネントに分けている: 知覚: 生の情報から情報を抽出する、推論: 利用可能な情報を操作する、統合: 関連する知覚的証拠を選択し、推論でそれを適用する。
それぞれのテストをサポートするために、個別の推論を評価するための視覚図、テキスト記述、両方のモダリティを必要とする制御された質問、そして、問題の象徴的な仕様から派生したきめ細かい知覚スキルの探究など、アノテーションを提供し、一貫性と堅牢性を確保する。
まず、強化学習は、特にテキストの監督によって支援された場合、特にテキストによるSFTは、反射的推論を通じて、間接的に知覚を改善する。
第二に、推論は知覚と連動してのみ改善する。
第三に、統合は依然として最も弱い能力であり、残りのエラーは、他のスキルが進むと集中する。
最後に、ロバスト性はばらつき: RLは図の変動の下で整合性を改善するが、マルチモーダル SFT は過度な適合によってそれを減らす。
すべてのデータと実験ログをリリースします。
関連論文リスト
- Compose and Fuse: Revisiting the Foundational Bottlenecks in Multimodal Reasoning [49.17801010041155]
MLLM(Multimodal large language model)は、テキスト、ビジョン、オーディオなどの多様な入力を統合することで推論を強化することを約束する。
しかし、追加のモダリティがパフォーマンスを損なうかどうかについての報告は相反する。
我々は、多モーダル推論を6つの相互作用パターンに分類し、事実がどのようにモダリティに分散され、論理的に組み合わせられるかを決定する。
論文 参考訳(メタデータ) (2025-09-28T08:46:11Z) - VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs [31.007061220012954]
1,800 の高品質 K-12 数学問題のキュレートされたベンチマークである groundingMath は、すべての候補解が微妙な視覚的類似性を持つダイアグラムである。
最先端のオープンソースシステムと広く採用されているオープンソースモデルの両方をカバーする、最先端のLMMの包括的な評価は、画像間の類似性が増大するにつれて、一貫した精度の低下を示す。
トレーニングなしアプローチと微調整の3つのアライメント指向戦略について検討し,精度の向上を図る。
論文 参考訳(メタデータ) (2025-06-07T09:24:13Z) - Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。
提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文 参考訳(メタデータ) (2025-05-19T15:43:10Z) - Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning [19.28434717501445]
視覚的推論能力は、複雑なマルチモーダルデータを理解する上で重要な役割を果たす。
既存の手法は、チェーン・オブ・ソートによる微調整によるVLM推論を改善する。
我々は新しい強化微調整フレームワークReason-RFTを提案する。
論文 参考訳(メタデータ) (2025-03-26T17:38:06Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - REX: Reasoning-aware and Grounded Explanation [30.392986232906107]
我々は,画像中の推論プロセスとグラウンド化キーワードをトラバースすることで,意思決定を説明する,新しいタイプのマルチモーダルな説明を開発する。
第2に、意思決定を説明するために、視覚的およびテキスト的モダリティに重要なコンポーネントを密に結合する必要があることを特定する。
第3に、単語と興味のある領域のペアワイズ対応を明示的にモデル化する、新しい説明生成手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T17:28:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。