論文の概要: Skill-RM: Unifying Heterogeneous Evaluation Criteria via Agent Skill
- arxiv url: http://arxiv.org/abs/2606.03980v1
- Date: Tue, 02 Jun 2026 17:56:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:05.242627
- Title: Skill-RM: Unifying Heterogeneous Evaluation Criteria via Agent Skill
- Title(参考訳): Skill-RM:エージェントスキルによる不均一評価基準の統合
- Authors: Tao Chen, Gangwei Jiang, Pengyu Cheng, Siyuan Huang, Yihao Liu, Jingwei Ni, Jiaqi Guo, Mengyu Zhou, Kai Tang, Junling Liu, Qinliang Su, Xiaoxi Jiang, Guanjun Jiang,
- Abstract要約: 本稿では、再利用可能なリワード評価スキルの実行として報酬モデリングを再構築する統合フレームワークであるスキル・リワードモデル(Skill-RM)を提案する。
報酬計算を構造化されたエージェントタスクとして扱うことで、Skill-RMは異種資源をオーケストレーションするための一貫したインターフェースを提供する。
以上の結果から,Skill-RMは報酬モデリングのための統一的なソリューションを提供するだけでなく,エビデンスを戦略的かつ動的にオーケストレーションすることで,優れたパフォーマンスを実現することが示唆された。
- 参考スコア(独自算出の注目度): 36.002795736704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward models (RMs) provide critical feedback signals for LLM post-training, notably in reinforced fine-tuning (RFT) and reinforcement learning (RL) pipelines. However, current reward evaluation relies on heterogeneous criteria such as rule-based verifiers, ground-truth references, procedural checklists, and complex rubrics, where a unified mechanism to integrate all types of evidence remains unexplored. To this end, we propose Skill Reward Model (Skill-RM), a unified framework that reformulates reward modeling as the execution of a reusable Reward-Evaluation Skill. By treating reward computation as a structured agentic task, Skill-RM provides a consistent interface to orchestrate heterogeneous resources, dynamically selecting and aggregating evidence tailored to the specific requirements of each input. This approach enables the reward model to move beyond static evaluation, ensuring consistency and transparency across diverse tasks. Extensive experiments on reward benchmarks and downstream applications, including best-of-N selection and reinforcement learning, demonstrate that Skill-RM consistently outperforms traditional judge baselines. Our findings suggest that Skill-RM not only provides a unified solution for reward modeling but also achieves superior performance through the strategic and dynamic orchestration of evidence. The code is at https://github.com/Qwen-Applications/Skill-RM.
- Abstract(参考訳): リワードモデル(RM)は、特に強化微細チューニング(RFT)と強化学習(RL)パイプラインにおいて、LLM後のトレーニングに重要なフィードバック信号を提供する。
しかし、現在の報酬評価は、ルールベースの検証、基底真実参照、手続きチェックリスト、複雑なルーリックといった不均一な基準に依存しており、あらゆる種類の証拠を統合する統一的なメカニズムがまだ解明されていない。
この目的のために,再利用可能なリワード評価スキルの実行として報酬モデリングを再構築する統合フレームワークであるスキル・リワードモデル(Skill-RM)を提案する。
報酬計算を構造化されたエージェントタスクとして扱うことで、Skill-RMは異種資源をオーケストレーションするための一貫したインターフェースを提供し、各入力の特定の要求に合わせた証拠を動的に選択し集約する。
このアプローチにより、報酬モデルは静的評価を超えて、さまざまなタスク間の一貫性と透明性を保証することができる。
報酬ベンチマークや、ベストオブNの選択や強化学習など、下流のアプリケーションに関する大規模な実験は、Skill-RMが従来の審査基準を一貫して上回っていることを示している。
以上の結果から,Skill-RMは報酬モデリングのための統一的なソリューションを提供するだけでなく,エビデンスを戦略的かつ動的にオーケストレーションすることで,優れたパフォーマンスを実現することが示唆された。
コードはhttps://github.com/Qwen-Applications/Skill-RMにある。
関連論文リスト
- Multi-Agent Collaborative Reward Design for Enhancing Reasoning in Reinforcement Learning [13.30869366778628]
CRMは単一のブラックボックス報酬モデルを置き換えるフレームワークであり、専門家評価者の調整されたチームに置き換えられている。
トレーニングとアセスメントをサポートするために、CRMの協調的な構造に沿ったベンチマークとトレーニングスイートである rewardBenchを紹介します。
論文 参考訳(メタデータ) (2025-11-20T10:12:34Z) - Rewarding the Journey, Not Just the Destination: A Composite Path and Answer Self-Scoring Reward Mechanism for Test-Time Reinforcement Learning [29.778703252962092]
大規模言語モデル(LLM)の進化のための強力なパラダイムとして強化学習(RL)が登場した。
外部の監督なしに動作する新しいテストタイム報酬機構を開発した。
論文 参考訳(メタデータ) (2025-10-20T07:53:51Z) - Confidence as a Reward: Transforming LLMs into Reward Models [54.98336080630691]
Confidence-as-a-Reward (CRew) は、モデルの最終回答に対するトークンレベルの信頼を報酬のプロキシとして利用する、トレーニング不要の手法である。
CRew は MATH500 および RewardMATH ベンチマークにおいて,既存のトレーニングフリー報酬手法よりも優れていることを示す。
本稿では,信頼度スコアと正当性信号を組み合わせた選好データを構成する訓練戦略であるCRew-DPOを提案する。
論文 参考訳(メタデータ) (2025-10-15T12:51:47Z) - Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。
提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文 参考訳(メタデータ) (2025-06-10T12:59:14Z) - Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:01:06Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。