論文の概要: TIM-PRM: Verifying multimodal reasoning with Tool-Integrated PRM
- arxiv url: http://arxiv.org/abs/2511.22998v1
- Date: Fri, 28 Nov 2025 09:01:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.834753
- Title: TIM-PRM: Verifying multimodal reasoning with Tool-Integrated PRM
- Title(参考訳): TIM-PRM:ツール付きPRMによるマルチモーダル推論の検証
- Authors: Peng Kuang, Xiangxiang Wang, Wentao Liu, Jian Dong, Kaidi Xu, Haohan Wang,
- Abstract要約: MLLM(Multimodal Large Language Models)は、数学的推論において優れた性能を発揮する。
視覚幻覚や論理的不整合に弱いままであり、標準的な結果に基づく監督が軽減に失敗する。
TIM-PRMは,受動的分類タスクから能動的ツール強化調査へ検証を変換する新しいエージェントフレームワークである。
- 参考スコア(独自算出の注目度): 45.91545449507256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have achieved impressive performances in mathematical reasoning, yet they remain vulnerable to visual hallucinations and logical inconsistencies that standard outcome-based supervision fails to mitigate. While Process Reward Models (PRMs) promise step-by-step verification, current approaches typically operate as scalar scorers or generative critics that suffer from sycophancy, blindly validating the flawed hypotheses rather than grounding them in visual reality. To bridge this gap, we introduce TIM-PRM (Tool-Integrated Multimodal PRM), a novel agentic framework that transforms verification from a passive classification task into an active, tool-augmented investigation. TIM-PRM is trained to explicitly plan verification strategies and utilizes a mechanism of Independent Question Asking to query evidence via external tools, effectively decoupling verification from the reasoning context to eliminate confirmation bias. We instantiate this method by curating a high-quality dataset of tool-integrated verification trajectories. Extensive experiments on VisualProcessBench demonstrate that our 8B parameter model surpasses existing open-source multimodal PRMs, significantly outperforming much larger models like Qwen2.5-72B and InternVL-78B, while offering interpretable insights into the verification process.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、数学的推論において顕著なパフォーマンスを達成したが、標準的な結果に基づく監督が軽減できない視覚幻覚や論理的不整合に弱いままである。
プロセス・リワード・モデル(PRM)はステップ・バイ・ステップの検証を約束するが、現在のアプローチは典型的には、サイコフィナンシーに苦しむスカラー・スコアラーや生成的批評家として機能し、視覚的現実に根ざすのではなく、欠陥のある仮説を盲目的に検証する。
このギャップを埋めるために、受動的分類タスクからアクティブなツール強化調査に検証を変換する新しいエージェントフレームワークであるTIM-PRM(Tool-Integrated Multimodal PRM)を導入する。
TIM-PRMは、検証戦略を明示的に計画するように訓練され、独立質問応答のメカニズムを利用して、外部ツールを介して証拠を照会し、検証を推論コンテキストから効果的に切り離して、確認バイアスを排除している。
我々は,ツール統合検証トラジェクトリの高品質なデータセットをキュレートすることで,この手法をインスタンス化する。
VisualProcessBenchに関する大規模な実験では、我々の8Bパラメータモデルは既存のオープンソースのマルチモーダルPRMよりも優れており、検証プロセスに対する解釈可能な洞察を提供しながら、Qwen2.5-72BやInternVL-78Bのようなはるかに大きなモデルよりもはるかに優れています。
関連論文リスト
- GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning [34.42899160708635]
自動プロセス監視のための木誘導・忠実度対応フレームワークであるGroundedPRMを紹介する。
グラウンドドPRMは40Kの自動的にラベル付けされたサンプルでトレーニングされており、自動ラベル付けされた監視で訓練された最高のパフォーマンスのPRMが使用するデータの10%しか使用できない。
ProcessBenchの平均パフォーマンスは最大で26%向上している。
論文 参考訳(メタデータ) (2025-10-16T17:54:07Z) - Toward Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning [68.89572566071575]
Tool-Integrated Reasoning (TIR)により、大きな言語モデル(LLM)は、外部ツールを統合することで、内部推論能力を改善することができる。
提案するTool-Lightは,LDMがTIRを効率的にかつ正確に実行できるようにするためのフレームワークである。
10個のデータセットの実験結果は、ツールライトの有効性を示している。
論文 参考訳(メタデータ) (2025-09-27T12:53:37Z) - GM-PRM: A Generative Multimodal Process Reward Model for Multimodal Mathematical Reasoning [12.724393910603299]
GM-PRM(Generative Multimodal Process Reward Model)を紹介する。
単純なスカラースコアの代わりに、GM-PRMは各推論ステップのきめ細かい解釈可能な分析を提供する。
GM-PRMは複数のマルチモーダル数学ベンチマークにおいて最先端の計算結果が得られることを示す。
論文 参考訳(メタデータ) (2025-08-06T05:10:29Z) - PAG: Multi-Turn Reinforced LLM Self-Correction with Policy as Generative Verifier [18.771754895027616]
Policy as Generative Verifier (PAG) は、政策と検証役を交互に交互に行うことで、大規模言語モデルに自己修正の権限を与えるフレームワークである。
モデル崩壊を緩和し、推論能力と検証能力の両方を共同で強化する。
論文 参考訳(メタデータ) (2025-06-12T06:59:35Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo [55.452453947359736]
Twisted Sequential Monte Carlo(TSMC)に基づく新しい検証手法を提案する。
TSMCを大規模言語モデルに適用し、部分解に対する将来的な報酬を推定する。
このアプローチは、ステップワイドなヒューマンアノテーションを必要としない、より直接的なトレーニングターゲットをもたらす。
論文 参考訳(メタデータ) (2024-10-02T18:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。