論文の概要: VRPRM: Process Reward Modeling via Visual Reasoning
- arxiv url: http://arxiv.org/abs/2508.03556v1
- Date: Tue, 05 Aug 2025 15:25:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:56.045731
- Title: VRPRM: Process Reward Modeling via Visual Reasoning
- Title(参考訳): VRPRM:ビジュアル推論によるプロセスリワードモデリング
- Authors: Xinquan Chen, Bangwei Liu, Xuhong Wang,
- Abstract要約: 視覚的推論によるプロセス報酬モデルであるVRPRMを提案し、効率的な2段階トレーニング戦略を設計する。
わずか3.6KのCoT-PRM SFTデータと50Kの非CoT PRM RLトレーニングデータを使用すると、VRPRMは総データ量400Kの非考えのPRMを超えることができる。
- 参考スコア(独自算出の注目度): 1.4076905229310113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Process Reward Model (PRM) is widely used in the post-training of Large Language Model (LLM) because it can perform fine-grained evaluation of the reasoning steps of generated content. However, most PRMs lack long-term reasoning and deep thinking capabilities. On the other hand, although a few works have tried to introduce Chain-of-Thought capability into PRMs, the annotation cost of CoT-PRM data is too expensive to play a stable role in various tasks. To address the above challenges, we propose VRPRM, a process reward model via visual reasoning, and design an efficient two-stage training strategy. Experimental results show that using only 3.6K CoT-PRM SFT data and 50K non-CoT PRM RL training data, VRPRM can surpass the non-thinking PRM with a total data volume of 400K and achieved a relative performance improvement of up to 118\% over the base model in the BoN experiment. This result confirms that the proposed combined training strategy can achieve higher quality reasoning capabilities at a lower data annotation cost, thus providing a new paradigm for PRM training with more efficient data utilization.
- Abstract(参考訳): プロセス・リワード・モデル (PRM) は大規模言語モデル (LLM) の訓練後, 生成したコンテンツの推論ステップを詳細に評価できるため, 広く利用されている。
しかしながら、ほとんどのPRMには長期的な推論と深い思考能力がない。
一方, PRMにChain-of-Thought機能を導入しようとする研究はいくつかあるが, CoT-PRMデータのアノテーションコストは高すぎるため, 様々なタスクにおいて安定した役割を担っている。
上記の課題に対処するため,視覚的推論によるプロセス報酬モデルであるVRPRMを提案し,効率的な2段階トレーニング戦略を設計する。
実験の結果,3.6K CoT-PRM SFTデータと50K非CoT PRM RLトレーニングデータのみを用いれば,VRPRMは400Kの総データ量を持つ非思考型PRMを超えることができ,BoN実験ではベースモデルよりも118\%の相対的な性能向上を達成できた。
この結果から,提案した統合学習戦略により,データアノテーションコストの低減により高品質な推論能力が得られることが確認され,より効率的なデータ利用によるPRMトレーニングのための新たなパラダイムが提供される。
関連論文リスト
- ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs [56.32212611983997]
本稿では,新しいトラジェクトリ対応PRMであるReasonFlux-PRMを紹介し,トラジェクトリ応答型推論トレースの評価を行う。
ReasonFlux-PRMはステップレベルとトラジェクトリレベルの両方の監視機能を備えており、構造化された連鎖データと整合した微粒な報酬割り当てを可能にする。
得られたReasonFlux-PRM-7Bは、教師付き微調整で平均12.1%、強化学習で4.5%、テスト時間スケーリングで6.3%向上した。
論文 参考訳(メタデータ) (2025-06-23T17:59:02Z) - Reward Reasoning Model [104.39256985858428]
Reward Reasoning Models (RRM) は、最終的な報酬を生成する前に意図的に推論プロセスを実行するように設計されている。
自己発展型報酬推論能力を育成する強化学習フレームワークを実装した。
特に、RTMはテスト時間計算を適応的に利用して報酬の精度をさらに向上させることができる。
論文 参考訳(メタデータ) (2025-05-20T17:58:03Z) - Process Reward Models That Think [86.88809596842428]
ステップバイステップ検証 - プロセス報酬モデル(PRM)としても知られる - は、テスト時間スケーリングの鍵となる要素である。
この研究は、検証チェーン・オブ・シント(CoT)を生成することにより、ソリューションのすべてのステップを検証する言語化されたステップワイド報酬モデルとして、データ効率の高いPRMを構築することを目的としている。
我々は差別的PRMよりもプロセスラベルを桁違いに少なめに微調整した長いCoT検証器ThinkPRMを提案する。
論文 参考訳(メタデータ) (2025-04-23T15:44:54Z) - Efficient Process Reward Model Training via Active Learning [27.846449143217704]
プロセス・リワード・モデル(PRM)は、大規模言語モデル(LLM)の段階的な監視を提供する。
本稿では,トレーニングにおける最も不確実なサンプルを積極的に選択する,アクティブな学習手法であるActPRMを提案する。
有能だがコストのかかる推論モデルがこのデータをラベル付けする。
この選択されたデータセットの後のトレーニングでは、ProcessBench (75.0%) と PRMBench (65.5%) の新たな最先端(SOTA) PRMが同じサイズのモデルと比較される。
論文 参考訳(メタデータ) (2025-04-14T14:53:56Z) - Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models [33.547353090281284]
階層的リワードモデルと呼ばれる新しい報酬モデル手法を提案する。
個々の推論ステップと連続推論ステップを、きめ細かいレベルと粗いレベルの両方で評価する。
これは多段階推論コヒーレンスの評価に優れており、特に欠陥のあるステップが後に自己回帰によって修正される場合である。
論文 参考訳(メタデータ) (2025-03-16T15:18:40Z) - VisualPRM: An Effective Process Reward Model for Multimodal Reasoning [76.35753243272521]
既存のマルチモーダル大言語モデル(MLLM)の推論能力を改善するVisualPRMを導入する。
我々のモデルは7つのマルチモーダル推論ベンチマークで5.9ポイントの改善を実現している。
マルチモーダルPRMの評価のために,人間に注釈付きステップワイズラベルを付したベンチマークであるVisualProcessBenchを提案する。
論文 参考訳(メタデータ) (2025-03-13T12:03:37Z) - Free Process Rewards without Process Labels [55.14044050782222]
より安価な応答レベルラベルでORMをトレーニングすることで,テキストシンプルなPRMを追加のコストで得ることができることを示す。
我々の暗黙のPRMは、クロスエントロピー(CE)損失でインスタンス化されると、よりデータ効率が良く、命令1回に1回しか応答しない訓練でも生成モデルを改善することができることを示す。
論文 参考訳(メタデータ) (2024-12-02T21:20:02Z) - Semi-Supervised Reward Modeling via Iterative Self-Training [52.48668920483908]
本稿では,未ラベルデータを用いたRMトレーニングを強化する手法であるSemi-Supervised Reward Modeling (SSRM)を提案する。
SSRMは、追加のラベリングコストを発生させることなく、報酬モデルを大幅に改善することを示した。
全体として、SSRMは、人間が注釈付けした大量のデータへの依存を大幅に減らし、効果的な報酬モデルのトレーニングに要する全体的なコストと時間を削減する。
論文 参考訳(メタデータ) (2024-09-10T22:57:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。