論文の概要: Grounding the Score: Explicit Visual Premise Verification for Reliable Vision-Language Process Reward Models
- arxiv url: http://arxiv.org/abs/2603.16253v1
- Date: Tue, 17 Mar 2026 08:40:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.17609
- Title: Grounding the Score: Explicit Visual Premise Verification for Reliable Vision-Language Process Reward Models
- Title(参考訳): スコアのグラウンディング:信頼性の高いビジョンランゲージ・プロセス・リワードモデルのための明示的なビジュアルプリミット検証
- Authors: Junxin Wang, Dai Guan, Weijie Qiu, Zhihang Li, Yongbo Gai, Zhengyi Yang, Mengyu Zhou, Erchao Zhao, Xiaoxi Jiang, Guanjun Jiang,
- Abstract要約: EVPV(Explicit Visual Premise Verification)は,ステップが依存する視覚的前提の信頼性を段階的に評価する,軽量な検証インターフェースである。
EVPVはステップレベルの検証を改善し、強いベースラインよりも常にBest-of-Nの精度を向上する。
- 参考スコア(独自算出の注目度): 8.630726904040781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language process reward models (VL-PRMs) are increasingly used to score intermediate reasoning steps and rerank candidates under test-time scaling. However, they often function as black-box judges: a low step score may reflect a genuine reasoning mistake or simply the verifier's misperception of the image. This entanglement between perception and reasoning leads to systematic false positives (rewarding hallucinated visual premises) and false negatives (penalizing correct grounded statements), undermining both reranking and error localization. We introduce Explicit Visual Premise Verification (EVPV), a lightweight verification interface that conditions step scoring on the reliability of the visual premises a step depends on. The policy is prompted to produce a step-wise visual checklist that makes required visual facts explicit, while a constraint extractor independently derives structured visual constraints from the input image. EVPV matches checklist claims against these constraints to compute a scalar visual reliability signal, and calibrates PRM step rewards via reliability gating: rewards for visually dependent steps are attenuated when reliability is low and preserved when reliability is high. This decouples perceptual uncertainty from logical evaluation without per-step tool calls. Experiments on VisualProcessBench and six multimodal reasoning benchmarks show that EVPV improves step-level verification and consistently boosts Best-of-N reranking accuracy over strong baselines. Furthermore, injecting controlled corruption into the extracted constraints produces monotonic performance degradation, providing causal evidence that the gains arise from constraint fidelity and explicit premise verification rather than incidental prompt effects. Code is available at: https://github.com/Qwen-Applications/EVPV-PRM
- Abstract(参考訳): 視覚言語プロセス報酬モデル(VL-PRM)は、中間的推論ステップのスコア付けや、テストタイムスケーリング下での候補のリランクにますます使用される。
しかし、それらはブラックボックスの審査員として機能することが多く、低いステップスコアは真の推論ミスを反映するか、単に検証者のイメージの誤認を反映する。
この知覚と推論の絡み合いは、体系的な偽陽性(幻視的前提の逆転)と偽陰性(正しい根拠のある文のペナルティ化)につながり、再分類と誤りのローカライゼーションを損なう。
本稿では,ステップが依存する視覚的前提の信頼性を段階的に評価する軽量な検証インターフェースであるEVPV(Explicit Visual Premise Verification)を紹介する。
このポリシーは、必要な視覚的事実を明示するステップワイズな視覚的チェックリストを作成するように促され、制約抽出器は、入力画像から構造化された視覚的制約を独立に引き出す。
EVPVは、スカラーの視覚的信頼性信号を計算するためのこれらの制約に対するチェックリストの要求と一致し、信頼性ゲーティングを通じてPRMステップの報酬を校正する。
これは、ステップ単位のツールコールを使わずに、論理的評価から知覚の不確実性を分離する。
VisualProcessBenchと6つのマルチモーダル推論ベンチマークの実験は、EVPVがステップレベルの検証を改善し、強いベースラインよりも常にBest-of-Nの精度を向上していることを示している。
さらに、抽出された制約に制御された汚職を注入すると単調な性能劣化が生じ、その利得が偶発的な即効効果よりも制約忠実性や明示的な前提検証から生じるという因果的証拠が得られる。
コードは、https://github.com/Qwen-Applications/EVPV-PRMで入手できる。
関連論文リスト
- VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation [22.921677603408188]
LVLM(Large Vision-Language Models)はしばしば幻覚を呈し、現実世界のアプリケーションに安全な配置を制限している。
LVLM自己評価のための視覚対応不確実性定量化フレームワークVAUQを提案する。
VAUQは、モデルの出力が視覚的証拠に依存するかを明確に測定する。
論文 参考訳(メタデータ) (2026-02-24T16:11:14Z) - Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification [91.15649744496834]
本稿では、長い思考の連鎖から要約された結果の合理化過程を検証する、アウトカムベースプロセス検証(OPV)を提案する。
OPV は 76.3 と比較して F1 スコアが 83.1 の Qwen3-Max-Preview など,はるかに大きなオープンソースモデルよりも優れています。
論文 参考訳(メタデータ) (2025-12-11T15:47:38Z) - Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving [65.02106674311908]
本稿では,マルチラウンド階層的推論を行う長期水平数学エージェントであるIntern-S1-MOを紹介する。
コンパクトメモリをレムマの形で維持することにより、Intern-S1-MOはレムマリッチ推論空間をより自由に探索することができる。
実験の結果、インターンS1-MOはIMO2025の非幾何学的問題で35点中26点を得ることができ、銀メダリストのパフォーマンスに匹敵することがわかった。
論文 参考訳(メタデータ) (2025-12-11T15:26:28Z) - Look As You Think: Unifying Reasoning and Visual Evidence Attribution for Verifiable Document RAG via Reinforcement Learning [55.232400251303794]
Look As You Think (LAT)は、モデルをトレーニングし、一貫した帰属性を持った検証可能な推論パスを生成するための強化学習フレームワークである。
LATはシングルイメージとマルチイメージの両方でバニラモデルを一貫して改善し、平均ゲインは8.23%、IoU@0.5では47.0%となる。
論文 参考訳(メタデータ) (2025-11-15T02:50:23Z) - Adaptive Residual-Update Steering for Low-Overhead Hallucination Mitigation in Large Vision Language Models [13.32858759983739]
LVLM(Large Vision-Language Models)は、しばしばオブジェクト幻覚に悩まされ、視覚入力と矛盾するテキストを生成する。
この問題を緩和するための既存の推論時間の介入は、難しいトレードオフをもたらします。
本稿では,LVLMを視覚的に生成するフレームワークであるResidual-Update Directed Decoding Regulation(RUDDER)を提案する。
論文 参考訳(メタデータ) (2025-11-13T13:29:38Z) - Critique to Verify: Accurate and Honest Test-Time Scaling with RL-Trained Verifiers [63.99316853136304]
ミラー・クリティク(Mirror-Critique)は、情報的批評で検証者を訓練する枠組みである。
我々は、高品質な批判データを合成するために、小さな命令調整モデルを展開する。
結果として得られるミラー検証は、ソリューション毎に複数の批判を生成することで、候補ソリューションを評価するためにデプロイされる。
論文 参考訳(メタデータ) (2025-09-27T06:50:24Z) - Does Acceleration Cause Hidden Instability in Vision Language Models? Uncovering Instance-Level Divergence Through a Large-Scale Empirical Study [44.170933007736984]
VLM(Vision-Language Models)は、実用的展開において強力だが計算集約的な手法である。
現在のアクセラレーション評価は主に、重要な問題を見越して、パフォーマンスの最小限のパフォーマンス劣化を目標としています。
これは、AIベースの疾患診断のように、特定の既知の状況に対して常に正しい回答が最重要である、安定性中心の産業アプリケーションにとって不可欠である。
論文 参考訳(メタデータ) (2025-03-09T22:16:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。