論文の概要: Training Vision-Language Process Reward Models for Test-Time Scaling in Multimodal Reasoning: Key Insights and Lessons Learned
- arxiv url: http://arxiv.org/abs/2509.23250v2
- Date: Wed, 01 Oct 2025 12:54:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.802592
- Title: Training Vision-Language Process Reward Models for Test-Time Scaling in Multimodal Reasoning: Key Insights and Lessons Learned
- Title(参考訳): マルチモーダル推論におけるテスト時間スケーリングのためのビジョン・ランゲージ・プロセス・リワードモデルの訓練-キーポイントと教訓-
- Authors: Brandon Ong, Tej Deep Pala, Vernon Toh, William Chandra Tjhi, Soujanya Poria,
- Abstract要約: プロセス・リワード・モデル (Process Reward Models, PRM) は、大規模言語モデルにおける推論の信頼性を向上させる。
既存のVision-Language PRMはデータ構築にMCTS(Monte Carlo Tree Search)に依存している。
我々は,MCTSと強力なVLMの判断を組み合わせるハイブリッドデータフレームワークを導入し,より正確なステップレベルラベルを生成する。
- 参考スコア(独自算出の注目度): 29.44294456857936
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Process Reward Models (PRMs) provide step-level supervision that improves the reliability of reasoning in large language models. While PRMs have been extensively studied in text-based domains, their extension to Vision Language Models (VLMs) remains limited. Existing Vision-Language PRMs (VL-PRMs) rely on Monte Carlo Tree Search (MCTS) for data construction, which can often produce noisy supervision signals and limit generalization across tasks. In this work, we aim to elucidate the design space of VL-PRMs by exploring diverse strategies for dataset construction, training, and test-time scaling. First, we introduce a hybrid data synthesis framework that combines MCTS with judgments from a strong VLM, producing more accurate step-level labels. Second, we propose perception-focused supervision, enabling our PRM to explicitly detect errors at the visual grounding stage of reasoning. Third, we systematically evaluate multiple test-time scaling strategies, showing that our PRMs can reliably guide VLMs toward more accurate solutions. Our experiments covering five diverse multimodal benchmarks (MMMU, PuzzleVQA, AlgoPuzzleVQA, MathVista, and MathVision) reveal several key insights: (i) VL-PRMs when used as Outcome Reward Models (ORMs) during test-time scaling (TTS) can outperform VL-PRM guided process step selection, (ii) smaller VL-PRMs can match or even surpass larger ones in detecting process errors, (iii) VL-PRMs uncover latent reasoning abilities in stronger VLM backbones, (iv) perception-level supervision leads to significant gains in test-time scaling, and (v) TTS performance of different policies improve on advanced math reasoning datasets despite not training VL-PRMs on such datasets. We hope our work will motivate further research and support the advancement of VLMs.
- Abstract(参考訳): Process Reward Models (PRM) は、大きな言語モデルにおける推論の信頼性を向上させるステップレベルの監視を提供する。
PRMはテキストベースの領域で広く研究されているが、VLM(Vision Language Models)への拡張は依然として限られている。
既存のVision-Language PRM (VL-PRMs) はモンテカルロ木探索 (MCTS) に依存しており、ノイズの多い監視信号を生成し、タスク間の一般化を制限することができる。
本研究では,データセット構築,トレーニング,テストタイムスケーリングのための多様な戦略を探求することにより,VL-PRMの設計空間の解明を目指す。
まず、MCTSと強力なVLMの判断を組み合わせ、より正確なステップレベルのラベルを生成するハイブリッドデータ合成フレームワークを提案する。
第2に,視覚的根拠に基づく推論の段階での誤りをPRMが明示的に検出できるような,知覚に焦点を絞った監視手法を提案する。
第3に、複数のテストタイムスケーリング戦略を体系的に評価し、PRMがVLMをより正確なソリューションへと確実に導くことを示す。
マルチモーダルベンチマーク(MMMU、PuzzleVQA、AlgoPuzzleVQA、MathVista、MathVision)に関する実験では、いくつかの重要な洞察が得られました。
(i)テスト時間スケーリング(TTS)において、ORM(Outcome Reward Models)として使用するVL-PRMは、VL-PRMガイドによるプロセスステップ選択よりも優れている。
(ii)より小さなVL-PRMは、プロセスエラーの検出において、より大きなVL-PRMと一致または超える。
3)VL-PRMは、強いVLMバックボーンの潜伏推論能力を明らかにする
(4)知覚レベルの監督は、テストタイムのスケーリングにおいて著しく向上し、
(v)これらのデータセット上でVL-PRMを訓練していないにもかかわらず、異なるポリシーのTS性能は高度な算数推論データセットを改善する。
我々は、VLMのさらなる研究の動機となり、VLMの進歩を支援することを願っている。
関連論文リスト
- When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMs [4.296395082987112]
L-VLM(Large Vision-Language Models)は、様々な視覚や言語タスクにおいて顕著な性能を示す。
小型ビジョンランゲージモデル (Small Vision-Language Models, S-VLM) は効率性を提供するが、より大きなモデルに比べて大きな性能差がある。
本稿では,S-VLM を体系的に改善する新しいフレームワークである Model Parity Aligner (MPA) を紹介する。
論文 参考訳(メタデータ) (2025-09-20T11:12:23Z) - Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - Multimodal Behavioral Patterns Analysis with Eye-Tracking and LLM-Based Reasoning [12.054910727620154]
視線追跡データは、ユーザの認知状態に関する貴重な洞察を明らかにするが、その構造化された非言語的な性質のために分析することは困難である。
本稿では、視線追跡信号からの認知パターン抽出を促進するために、マルチモーダルな人間-AI協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-24T09:49:53Z) - Mimicking or Reasoning: Rethinking Multi-Modal In-Context Learning in Vision-Language Models [19.361686225381447]
視覚言語モデル(VLM)は、文脈内学習(ICL)を示すと広く想定されている
提案するMM-ICLにはReasoningパイプラインが組み込まれている。
論文 参考訳(メタデータ) (2025-06-09T16:55:32Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models [64.1799100754406]
大きな言語モデル(LLM)は、さらなる推論によって拡張された能力と信頼性を示す。
LLM推論の改善へのさまざまな取り組みにもかかわらず、高品質な長鎖推論データと最適化されたトレーニングパイプラインは、まだビジョン言語タスクでは不十分である。
本稿では,1)複雑なマルチモーダルタスクに対する長大かつ堅牢な推論データを生成するための初期の取り組みであるInsight-Vと,2)MLLMの推論能力を高めるための効果的なトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:55Z) - Vision-Language Instruction Tuning: A Review and Analysis [52.218690619616474]
VLIT(Vision-Language Instruction Tuning)は、純粋なテキスト命令チューニングよりも複雑な特徴を示す。
既存のVLITデータセットの詳細な分類と、高品質なVLITデータが持つべき特性を識別する。
これらの特徴を既存のVLITデータ構築プロセスに導出する原理として取り入れることで、我々は広範囲な実験を行い、調整されたマルチモーダルLCMの性能に対する肯定的な影響を検証した。
論文 参考訳(メタデータ) (2023-11-14T14:02:32Z) - Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。
本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:19:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。