論文の概要: Rationale Matters: Learning Transferable Rubrics via Proxy-Guided Critique for VLMReward Models
- arxiv url: http://arxiv.org/abs/2603.16600v1
- Date: Tue, 17 Mar 2026 14:45:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.34952
- Title: Rationale Matters: Learning Transferable Rubrics via Proxy-Guided Critique for VLMReward Models
- Title(参考訳): Rationale Matters:VLMRewardモデルに対するプロキシガイドによるトランスファー可能なルーブリックの学習
- Authors: Weijie Qiu, Dai Guan, Junxin Wang, Zhihang Li, Yongbo Gai, Mengyu Zhou, Erchao Zhao, Xiaoxi Jiang, Guanjun Jiang,
- Abstract要約: 視覚言語モデル(VLM)のための生成的報酬モデル(GRM)は、しばしば3段階のパイプラインを通して出力を評価する。
本稿では,RL(Reinforcement Learning)にプロキシ誘導型ルーリック検証を導入し,ルーリック品質を明示的に向上するProxy-GRMを提案する。
50kのデータサンプルで、VL-Reward Bench、Multimodal Reward Bench、MM-RLHF-Reward Benchの最先端結果に達する。
- 参考スコア(独自算出の注目度): 7.840274144057328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative reward models (GRMs) for vision-language models (VLMs) often evaluate outputs via a three-stage pipeline: rubric generation, criterion-based scoring, and a final verdict. However, the intermediate rubric is rarely optimized directly. Prior work typically either treats rubrics as incidental or relies on expensive LLM-as-judge checks that provide no differentiable signal and limited training-time guidance. We propose Proxy-GRM, which introduces proxy-guided rubric verification into Reinforcement Learning (RL) to explicitly enhance rubric quality. Concretely, we train lightweight proxy agents (Proxy-SFT and Proxy-RL) that take a candidate rubric together with the original query and preference pair, and then predict the preference ordering using only the rubric as evidence. The proxy's prediction accuracy serves as a rubric-quality reward, incentivizing the model to produce rubrics that are internally consistent and transferable. With ~50k data samples, Proxy-GRM reaches state-of-the-art results on the VL-Reward Bench, Multimodal Reward Bench, and MM-RLHF-Reward Bench, outperforming the methods trained on four times the data. Ablations show Proxy-SFT is a stronger verifier than Proxy-RL, and implicit reward aggregation performs best. Crucially, the learned rubrics transfer to unseen evaluators, improving reward accuracy at test time without additional training. Our code is available at https://github.com/Qwen-Applications/Proxy-GRM.
- Abstract(参考訳): 視覚言語モデル(VLM)のための生成的報酬モデル(GRM)は、しばしば3段階のパイプラインを通して出力を評価する。
しかし、中間ルーリックは直接最適化されることは稀である。
それまでの作業は通常、ルーリックを偶発的なものとして扱うか、または区別可能な信号や限られた訓練時間ガイダンスを提供する高価なLCM-as-judgeチェックに依存していた。
本稿では,RL(Reinforcement Learning)にプロキシ誘導型ルーリック検証を導入し,ルーリック品質を明示的に向上するProxy-GRMを提案する。
具体的には,プライバシプロキシエージェント (Proxy-SFT と Proxy-RL) をトレーニングし,候補ルブリックと元のクエリと選好ペアを併用した上で,ルーブリックのみを証拠として選好順序の予測を行う。
プロキシの予測精度はルーリック品質の報酬として機能し、内部的に一貫性があり、転送可能なルーリックを生成するモデルにインセンティブを与える。
約50kのデータサンプルでは、VL-Reward Bench、Multimodal Reward Bench、MM-RLHF-Reward Benchの最先端結果に到達し、4倍のデータでトレーニングされたメソッドよりも優れている。
Ablations shows Proxy-SFT is a strong verifier than Proxy-RL。
重要なことは、学習したルーリックは見当たらない評価器に転送され、追加のトレーニングなしでテスト時の報酬精度が向上する。
私たちのコードはhttps://github.com/Qwen-Applications/Proxy-GRM.comで利用可能です。
関連論文リスト
- From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation [52.62655622099456]
検証基準ベース報酬(RLVRR)を用いた強化学習を提案する。
最後の答えをチェックする代わりに、RLVRRは高品質な参照(すなわち報酬連鎖)から順序付けられた言語信号を抽出する。
このようにして、RLVRRは報酬を2つの次元に分解する。
論文 参考訳(メタデータ) (2026-01-26T14:39:58Z) - Refinement Provenance Inference: Detecting LLM-Refined Training Prompts from Model Behavior [58.751981587234916]
本稿では,Refinement Provenance Inference (RPI)監査タスクをRefinement Provenance Inference (RPI)として定式化する。
本稿では,ロジットレベルの信号で教師が強制する可能性機能を融合させるロジットベースのフレームワークであるReProを提案する。
トレーニング中、ReProはシャドウファインチューニングを通じて転送可能な表現を学び、訓練データアクセスなしで、見えない犠牲者の証明を推測するために軽量のリニアヘッドを使用する。
論文 参考訳(メタデータ) (2026-01-05T10:16:41Z) - Off-Policy Corrected Reward Modeling for Reinforcement Learning from Human Feedback [52.1410307583181]
我々は、ヒューマンフィードバックからの強化学習を用いて、複雑な人間の嗜好に従うために言語モデル(LM)を訓練する。
トレーニングが進むにつれて、LMが生成する応答は、報酬モデル(RM)の応答にもはや似ていない。
新しいラベルやサンプルを必要とせず、重み付けによりRMを補正するオフポリティ補正リワードモデリングを提案する。
論文 参考訳(メタデータ) (2025-07-21T11:19:04Z) - Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である
本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。
我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文 参考訳(メタデータ) (2025-02-26T17:19:12Z) - Process Reward Models for LLM Agents: Practical Framework and Directions [10.986389591866617]
エージェントプロセス・リワード・モデル (AgentPRM) を導入する。
InversePRMを提案する。これは、明示的な結果の監督なしに、デモから直接プロセス報酬を学習する。
ALFWorldベンチマークで評価したところ、AgentPRMとInversePRMで訓練された3Bモデルは、強力なGPT-4oベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-02-14T17:34:28Z) - Redistributing Rewards Across Time and Agents for Multi-Agent Reinforcement Learning [14.852334980733369]
共用型マルチエージェント強化学習において、各エージェントの共用報酬への貢献を阻害する信用割り当ては重要な課題である。
本稿では、この制約から信用モデリングを分離するアプローチであるTAR(Temporal-Agent Reward Redistribution)を導入する。
本手法は,モデル精度によらず最適ポリシーが維持されることを保証するPBRSと等価であることを示す。
論文 参考訳(メタデータ) (2025-02-07T12:07:57Z) - How to Evaluate Reward Models for RLHF [51.31240621943791]
我々は、RLHF(Reinforcement Learning from Human Feedback)を通して強力な言語モデルを生成する能力を定量化する報酬モデルのための新しいベンチマークを導入する。
我々は,プロキシタスクの報酬モデルを評価することにより,下流LLM性能の予測モデルを構築した。
大規模クラウドソースによる人選好プラットフォーム上でのエンドツーエンドのRLHF実験をローンチした。
論文 参考訳(メタデータ) (2024-10-18T21:38:21Z) - Rethinking the Role of Proxy Rewards in Language Model Alignment [39.53237479058083]
逆報酬工学による大規模言語モデルのアライメントにおける代行報酬の役割について検討する。
我々は,金の報酬信号とプロキシのモノトニックな関係を達成し,金の報酬信号を再現することを目指している。
以上の結果から,金の報酬をうまくエミュレートするには,十分な長さの質問に対する応答を生成する必要があることが示唆された。
論文 参考訳(メタデータ) (2024-02-02T11:58:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。