論文の概要: What, Whether and How? Unveiling Process Reward Models for Thinking with Images Reasoning
- arxiv url: http://arxiv.org/abs/2602.08346v1
- Date: Mon, 09 Feb 2026 07:31:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.108059
- Title: What, Whether and How? Unveiling Process Reward Models for Thinking with Images Reasoning
- Title(参考訳): イメージ推論のためのプロセスリワードモデルの構築
- Authors: Yujin Zhou, Pengcheng Wen, Jiale Chen, Boqin Yin, Han Zhu, Jiaming Ji, Juntao Dai, Chi-Min Chan, Sirui Han,
- Abstract要約: この研究は、画像パラダイムによる思考の下で、プロセスリワードモデル(PRM)を評価するために特別に設計された最初の包括的なベンチマークを紹介する。
7種類のきめ細かいエラータイプを定義し、特殊なPRMの必要性と改善の可能性の両方を実証する。
実験により,現在のLVLMは実効PRMと同等に低下し,誤差の種類,肯定的評価バイアス,推論ステップ位置に対する感度に有意な差が認められた。
- 参考スコア(独自算出の注目度): 18.918845075485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of Large Vision Language Models (LVLMs) has demonstrated excellent abilities in various visual tasks. Building upon these developments, the thinking with images paradigm has emerged, enabling models to dynamically edit and re-encode visual information at each reasoning step, mirroring human visual processing. However, this paradigm introduces significant challenges as diverse errors may occur during reasoning processes. This necessitates Process Reward Models (PRMs) for distinguishing positive and negative reasoning steps, yet existing benchmarks for PRMs are predominantly text-centric and lack comprehensive assessment under this paradigm. To address these gaps, this work introduces the first comprehensive benchmark specifically designed for evaluating PRMs under the thinking with images paradigm. Our main contributions are: (1) Through extensive analysis of reasoning trajectories and guided search experiments with PRMs, we define 7 fine-grained error types and demonstrate both the necessity for specialized PRMs and the potential for improvement. (2) We construct a comprehensive benchmark comprising 1,206 manually annotated thinking with images reasoning trajectories spanning 4 categories and 16 subcategories for fine-grained evaluation of PRMs. (3) Our experimental analysis reveals that current LVLMs fall short as effective PRMs, exhibiting limited capabilities in visual reasoning process evaluation with significant performance disparities across error types, positive evaluation bias, and sensitivity to reasoning step positions. These findings demonstrate the effectiveness of our benchmark and establish crucial foundations for advancing PRMs in LVLMs.
- Abstract(参考訳): LVLM(Large Vision Language Models)の急速な進歩は、様々な視覚的タスクにおいて優れた能力を示している。
これらの発展に基づいて、画像パラダイムによる思考が出現し、モデルが各推論ステップで視覚情報を動的に編集し、再エンコードし、人間の視覚処理を反映することができるようになった。
しかし、このパラダイムは、推論プロセス中に多様なエラーが発生する可能性があるため、重大な課題をもたらす。
これは、肯定的な推論ステップと否定的な推論ステップを区別するためにプロセス・リワード・モデル(PRM)を必要とするが、既存のPRMのベンチマークは主にテキスト中心であり、このパラダイムの下で包括的な評価を欠いている。
これらのギャップに対処するため、この研究は、画像パラダイムを用いた思考下でのPRMの評価に特化して設計された最初の包括的なベンチマークを導入する。
本研究の主な貢献は, (1) 推論軌跡の広範囲な解析とPRMを用いたガイド付き探索実験により, 7種類のきめ細かいエラータイプを定義し, 専門的なPRMの必要性と改善の可能性の両方を実証する。
2) PRMの微粒化評価のために,4つのカテゴリと16のサブカテゴリにまたがるトラジェクトリを画像として,手動で1,206のアノテート思考を用いた総合的なベンチマークを構築した。
実験により,現在のLVLMは有効なPRMと同等に低下し,視覚的推論プロセスの評価能力に限界があり,エラータイプ,肯定的評価バイアス,推論ステップ位置に対する感度が著しく異なることが明らかとなった。
これらの結果は,我々のベンチマークの有効性を実証し,LVLMにおけるPRMの進展に重要な基盤を確立した。
関連論文リスト
- Socratic-PRMBench: Benchmarking Process Reward Models with Systematic Reasoning Patterns [79.42805969325036]
プロセス・リワード・モデル(PRM)は複雑な推論と問題解決に不可欠である。
PRMは、推論プロセス中に様々な推論パターンの下でエラーを特定する必要がある。
既存のベンチマークは主に、段階的に正しいPRMを評価することに焦点を当てている。
Socratic-PRMBenchは、6つの推論パターンでPRMを体系的に評価する新しいベンチマークである。
論文 参考訳(メタデータ) (2025-05-29T14:26:53Z) - Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [84.16442052968615]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。
RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論カテゴリに焦点を当てている。
オープンソースモデルとプロプライエタリモデルの両方を含む,9つの目立った視覚編集モデルを評価する実験を行った。
論文 参考訳(メタデータ) (2025-04-03T17:59:56Z) - The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。
我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。
私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文 参考訳(メタデータ) (2025-01-13T13:10:16Z) - PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models [28.74956741932006]
PRMベンチ(PRM Bench)は, PRMの微細な誤差検出機能を評価するための, プロセスレベルのベンチマークである。
PRMBenchは、6,216の慎重に設計された問題と83,456のステップレベルラベルで構成され、複数の次元にわたるモデルを評価する。
論文 参考訳(メタデータ) (2025-01-06T16:31:45Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。