論文の概要: What MLLMs Learn about When they Learn about Multimodal Reasoning: Perception, Reasoning, or their Integration?
- arxiv url: http://arxiv.org/abs/2510.01719v2
- Date: Tue, 07 Oct 2025 15:17:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 13:19:51.452761
- Title: What MLLMs Learn about When they Learn about Multimodal Reasoning: Perception, Reasoning, or their Integration?
- Title(参考訳): マルチモーダル推論(multimodal Reasoning)について学ぶとき、MLLMはどのようなことを学んだか?
- Authors: Jiwan Chung, Neel Joshi, Pratyusha Sharma, Youngjae Yu, Vibhav Vineet,
- Abstract要約: マルチモーダル推論モデルは、最近、オリンピアドレベルの幾何学のような挑戦的な領域を約束している。
マルチモーダル推論のサブスキルを切り離すために設計されたベンチマークであるMathLensを紹介する。
- 参考スコア(独自算出の注目度): 46.836858357488296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal reasoning models have recently shown promise on challenging domains such as olympiad-level geometry, yet their evaluation remains dominated by aggregate accuracy, a single score that obscures where and how models are improving. We introduce MathLens, a benchmark designed to disentangle the subskills of multimodal reasoning while preserving the complexity of textbook-style geometry problems. The benchmark separates performance into three components: Perception: extracting information from raw inputs, Reasoning: operating on available information, and Integration: selecting relevant perceptual evidence and applying it within reasoning. To support each test, we provide annotations: visual diagrams, textual descriptions to evaluate reasoning in isolation, controlled questions that require both modalities, and probes for fine-grained perceptual skills, all derived from symbolic specifications of the problems to ensure consistency and robustness. Our analysis reveals that different training approaches have uneven effects: First, reinforcement learning chiefly strengthens perception, especially when supported by textual supervision, while textual SFT indirectly improves perception through reflective reasoning. Second, reasoning improves only in tandem with perception. Third, integration remains the weakest capacity, with residual errors concentrated there once other skills advance. Finally, robustness diverges: RL improves consistency under diagram variation, whereas multimodal SFT reduces it through overfitting. We will release all data and experimental logs.
- Abstract(参考訳): マルチモーダル推論モデルは、最近、オリンピアドレベルの幾何学のような挑戦的な領域について、公約を示しているが、それらの評価は、モデルがどのように改善しているかを曖昧にする単一のスコアである集約精度に支配されている。
教科書形式の幾何学問題を複雑に保ちつつ,マルチモーダル推論のサブスキルを乱すように設計されたベンチマークであるMathLensを紹介する。
このベンチマークはパフォーマンスを3つのコンポーネントに分けている: 知覚: 生の情報から情報を抽出する、推論: 利用可能な情報を操作する、統合: 関連する知覚的証拠を選択し、推論でそれを適用する。
それぞれのテストをサポートするために、個別の推論を評価するための視覚図、テキスト記述、両方のモダリティを必要とする制御された質問、そして、問題の象徴的な仕様から派生したきめ細かい知覚スキルの探究など、アノテーションを提供し、一貫性と堅牢性を確保する。
まず、強化学習は、特にテキストの監督によって支援された場合、特にテキストによるSFTは、反射的推論を通じて、間接的に知覚を改善する。
第二に、推論は知覚と連動してのみ改善する。
第三に、統合は依然として最も弱い能力であり、残りのエラーは、他のスキルが進むと集中する。
最後に、ロバスト性はばらつき: RLは図の変動の下で整合性を改善するが、マルチモーダル SFT は過度な適合によってそれを減らす。
すべてのデータと実験ログをリリースします。
関連論文リスト
- Can Unified Generation and Understanding Models Maintain Semantic Equivalence Across Different Output Modalities? [61.533560295383786]
Unified Multimodal Large Language Models (U-MLLM) は、単一のアーキテクチャ内で理解と生成を統合する。
我々は,U-MLLMが画像のモダリティにおいて同じ結果をレンダリングするために必要な場合,意味的等価性を維持することができないことを観察する。
VGUBenchは、推論ロジックを生成の忠実性から切り離すためのフレームワークである。
論文 参考訳(メタデータ) (2026-02-27T06:23:56Z) - CASHEW: Stabilizing Multimodal Reasoning via Iterative Trajectory Aggregation [6.356820150960838]
視覚言語モデルを安定させるために,テスト時間スケーリングにインスパイアされた2つの補完的アプローチを導入する。
CASHEWは推論時のフレームワークで、複数の候補軌道を高品質な推論トレースに反復的に集約することで推論を安定化する。
CASHEW-RL はグループシーケンスポリシー最適化 (GSPO) を用いて訓練されており、最小でも十分な視覚的証拠に根ざした正しい回答を促す複合報酬が提供されている。
論文 参考訳(メタデータ) (2026-01-12T21:24:45Z) - Ground What You See: Hallucination-Resistant MLLMs via Caption Feedback, Diversity-Aware Sampling, and Conflict Regularization [38.469173375694076]
マルチモーダル大言語モデル(MLLM)における幻覚の根本原因を系統的に解析する。
1)不正確な初期記述が後続の推論を誤った前提に固定する連鎖的視覚推論の過度な信頼、(2)政策最適化中の探索の多様性が不十分で、過度に自信があるが誤ったアウトプットを発生させる要因、(3)トレーニングサンプル間の破壊的な衝突、NTKの類似性が誤関連や不安定なパラメータ更新を引き起こす要因である。
実験の結果,提案手法は幻覚率を著しく低減し,MLLMの推論精度を効果的に向上することが示された。
論文 参考訳(メタデータ) (2026-01-09T07:59:18Z) - Beyond Generation: Multi-Hop Reasoning for Factual Accuracy in Vision-Language Models [0.0]
ビジュアル言語モデル(VLM)は強力な生成ツールであるが、しばしば事実的に正確な出力を生成する。
本研究は、知識誘導推論のためのフレームワークをVLMで導入し、マルチホップ検証に構造化知識グラフを活用する。
本研究では,階層的・三点的・三点的・三点的・三点的知識表現を用いた枠組みの評価を行い,実効性と論理的推論性について分析した。
論文 参考訳(メタデータ) (2025-11-25T17:34:32Z) - Compose and Fuse: Revisiting the Foundational Bottlenecks in Multimodal Reasoning [49.17801010041155]
MLLM(Multimodal large language model)は、テキスト、ビジョン、オーディオなどの多様な入力を統合することで推論を強化することを約束する。
しかし、追加のモダリティがパフォーマンスを損なうかどうかについての報告は相反する。
我々は、多モーダル推論を6つの相互作用パターンに分類し、事実がどのようにモダリティに分散され、論理的に組み合わせられるかを決定する。
論文 参考訳(メタデータ) (2025-09-28T08:46:11Z) - VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs [31.007061220012954]
1,800 の高品質 K-12 数学問題のキュレートされたベンチマークである groundingMath は、すべての候補解が微妙な視覚的類似性を持つダイアグラムである。
最先端のオープンソースシステムと広く採用されているオープンソースモデルの両方をカバーする、最先端のLMMの包括的な評価は、画像間の類似性が増大するにつれて、一貫した精度の低下を示す。
トレーニングなしアプローチと微調整の3つのアライメント指向戦略について検討し,精度の向上を図る。
論文 参考訳(メタデータ) (2025-06-07T09:24:13Z) - Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。
提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文 参考訳(メタデータ) (2025-05-19T15:43:10Z) - Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning [19.28434717501445]
視覚的推論能力は、複雑なマルチモーダルデータを理解する上で重要な役割を果たす。
既存の手法は、チェーン・オブ・ソートによる微調整によるVLM推論を改善する。
我々は新しい強化微調整フレームワークReason-RFTを提案する。
論文 参考訳(メタデータ) (2025-03-26T17:38:06Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - REX: Reasoning-aware and Grounded Explanation [30.392986232906107]
我々は,画像中の推論プロセスとグラウンド化キーワードをトラバースすることで,意思決定を説明する,新しいタイプのマルチモーダルな説明を開発する。
第2に、意思決定を説明するために、視覚的およびテキスト的モダリティに重要なコンポーネントを密に結合する必要があることを特定する。
第3に、単語と興味のある領域のペアワイズ対応を明示的にモデル化する、新しい説明生成手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T17:28:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。