論文の概要: Improving Vision-language Models with Perception-centric Process Reward Models
- arxiv url: http://arxiv.org/abs/2604.24583v1
- Date: Mon, 27 Apr 2026 15:08:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.112322
- Title: Improving Vision-language Models with Perception-centric Process Reward Models
- Title(参考訳): 知覚中心プロセスリワードモデルによる視覚言語モデルの改良
- Authors: Yingqian Min, Kun Zhou, Yifan Li, Yuhuan Wu, Han Peng, Yifan Du, Wayne Xin Zhao, Min Yang, Ji-Rong Wen,
- Abstract要約: トークンレベルのエラーグラウンドを可能にするプロセス報酬モデル(PRM)であるPercevalを提案する。
Percevalは、知覚集約的な教師付きトレーニングデータで訓練される。
次に、ポリシーモデルをトレーニングするために、PercevalをRLトレーニングプロセスに統合します。
- 参考スコア(独自算出の注目度): 94.51962346430248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in reinforcement learning with verifiable rewards (RLVR) have significantly improved the complex reasoning ability of vision-language models (VLMs). However, its outcome-level supervision is too coarse to diagnose and correct errors within the reasoning chain. To this end, we propose Perceval, a process reward model (PRM) that enables token-level error grounding, which can extract image-related claims from the response and compare them one by one with the visual evidence in the image, ultimately returning claims that contain perceptual errors. Perceval is trained with perception-intensive supervised training data. We then integrate Perceval into the RL training process to train the policy models. Specifically, compared to traditional GRPO, which applies sequence-level advantages, we apply token-level advantages by targeting penalties on hallucinated spans identified by Perceval, thus enabling fine-grained supervision signals. In addition to augmenting the training process, Perceval can also assist VLMs during the inference stage. Using Perceval, we can truncate the erroneous portions of the model's response, and then either have the model regenerate the response directly or induce the model to reflect on its previous output. This process can be repeated multiple times to achieve test-time scaling. Experiments show significant improvements on benchmarks from various domains across multiple reasoning VLMs trained with RL, highlighting the promise of perception-centric supervision as a general-purpose strategy. For test-time scaling, it also demonstrates consistent performance gains over other strategies, such as major voting. Our code and data will be publicly released at https://github.com/RUCAIBox/Perceval.
- Abstract(参考訳): 近年, 視覚言語モデル(VLM)の複雑な推論能力は, 検証可能な報酬付き強化学習(RLVR)の進歩によって著しく向上している。
しかしながら、結果レベルの監督は、推論チェーン内のエラーを診断し、修正するには大きすぎる。
この目的のために、トークンレベルのエラーグラウンドを可能にするプロセス報酬モデル(PRM)であるPercevalを提案し、応答から画像関連クレームを抽出し、画像内の視覚的エビデンスと1つずつ比較し、最終的に知覚的エラーを含むクレームを返却する。
Percevalは、知覚集約的な教師付きトレーニングデータで訓練される。
次に、ポリシーモデルをトレーニングするために、PercevalをRLトレーニングプロセスに統合します。
具体的には、シーケンシャルレベルの利点を適用した従来のGRPOと比較して、Percevalが特定した幻覚スパンに対するペナルティを標的としたトークンレベルのアドバンテージを適用し、きめ細かい監視信号を実現する。
トレーニングプロセスの強化に加えて、Percevalは推論段階でのVLMの支援も行うことができる。
Percevalを使用することで、モデルの応答の誤った部分をトランケートし、そのモデルが直接応答を再生するか、あるいは以前の出力に反映するようにモデルを誘導する。
このプロセスは何度も繰り返して、テストタイムのスケーリングを実現します。
実験では、RLでトレーニングされた複数の推論VLMに対して、さまざまなドメインからのベンチマークが大幅に改善され、汎用戦略としての知覚中心の監視が実現された。
テスト時のスケーリングでは、大規模な投票など、他の戦略よりも一貫したパフォーマンス向上を示す。
私たちのコードとデータはhttps://github.com/RUCAIBox/Perceval.comで公開されます。
関連論文リスト
- Reinforcement Learning via Self-Distillation [37.078107691613155]
大規模言語モデルは、コードや数学などの検証可能な領域で強化学習を施して、ポストトレーニングされている。
検証可能な報酬(RLVR)を用いた強化学習の現在の手法は、試みごとにスカラーな結果報酬からのみ学習し、深刻な信用割り当てボトルネックを生み出す。
我々は、この設定をリッチフィードバックによる強化学習として定式化し、自己蒸留政策最適化(SDPO)を導入する。
SDPOは、トークン化されたフィードバックを、外部教師や明示的な報酬モデルなしで、密集した学習信号に変換する。
論文 参考訳(メタデータ) (2026-01-28T17:45:12Z) - Explore Data Left Behind in Reinforcement Learning for Reasoning Language Models [61.78513830395669]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデル(LLM)の推論能力向上に有効な手法として登場した。
モデルがより長く、規模が大きくなるにつれて、トレーニングのプロンプトは残余のプロンプトになる。
政策最適化フレームワークにおける探索的残留確率(Explore Residual Prompts in Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-11-06T20:40:27Z) - Unleashing Perception-Time Scaling to Multimodal Reasoning Models [60.578179197783754]
推論時間スケーリングの最近の進歩は、LVLM(Large Vision-Language Models)の推論能力を大幅に向上させた。
この成功に触発されて、同様の戦略がマルチモーダル推論に適用されたが、視覚的知覚への影響は未だ不明である。
本稿では,トークンに富む知覚を促進する新しいパラダイムである知覚時間スケーリング(PTS)を提案し,複雑な知覚問題を中間的抽出可能なサブプロブレムに分解する。
論文 参考訳(メタデータ) (2025-10-10T03:17:52Z) - ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs [32.13266235550995]
強化学習(RL)は、大規模言語モデル(LLM)の標準化の標準パラダイムとなっている。
人間の学習から得られた観察から着想を得て、検証可能な結果とモデル自身の信頼度推定を統合するRL手法を導入する。
論文 参考訳(メタデータ) (2025-09-22T13:00:35Z) - Incentivizing LLMs to Self-Verify Their Answers [22.387551134333084]
本稿では,大規模言語モデルにインセンティブを与え,自己検証を行うフレームワークを提案する。
我々はQwen2.5-Math-7BとDeepSeek-R1-Distill-Qwen-1.5Bに基づいて自己検証モデルを訓練する。
複数の数学的推論ベンチマークの実験は、我々のモデルがトレーニング後の性能を改善するだけでなく、効果的なテスト時間スケーリングを可能にすることを示している。
論文 参考訳(メタデータ) (2025-06-02T06:54:29Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。
トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。
トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-06T18:43:48Z) - Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。
CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。
提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文 参考訳(メタデータ) (2023-05-29T11:03:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。