論文の概要: OpenReward: Learning to Reward Long-form Agentic Tasks via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.24636v1
- Date: Tue, 28 Oct 2025 17:02:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.293404
- Title: OpenReward: Learning to Reward Long-form Agentic Tasks via Reinforcement Learning
- Title(参考訳): Open Reward: 強化学習によるロングフォームエージェントタスクのリワード学習
- Authors: Ziyou Hu, Zhengliang Shi, Minghang Zhu, Haitao Li, Teng Sun, Pengjie Ren, Suzan Verberne, Zhaochun Ren,
- Abstract要約: 大規模言語モデル(LLM)の整合には,リワードモデル(RM)が不可欠である。
ツール拡張型ロングフォーム報酬モデルであるOpenRMを導入し、外部ツールを呼び出して適切な証拠を収集することで、オープンエンドの応答を判断する。
新たにコンパイルされた3つのデータセットと2つの広く使用されているベンチマークの実験は、OpenRMが既存の報酬モデリングアプローチを大幅に上回っていることを示している。
- 参考スコア(独自算出の注目度): 41.49024599460379
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward models (RMs) have become essential for aligning large language models (LLMs), serving as scalable proxies for human evaluation in both training and inference. However, existing RMs struggle on knowledge-intensive and long-form tasks, where evaluating correctness requires grounding beyond the model's internal knowledge. This limitation hinders them from reliably discriminating subtle quality differences, especially when external evidence is necessary. To address this, we introduce OpenRM, a tool-augmented long-form reward model that systematically judges open-ended responses by invoking external tools to gather relevant evidence. We train OpenRM with Group Relative Policy Optimization (GRPO) on over 27K synthesized pairwise examples generated through a controllable data synthesis framework. The training objective jointly supervises intermediate tool usage and final outcome accuracy, incentivizing our reward model to learn effective evidence-based judgment strategies. Extensive experiments on three newly-collected datasets and two widely-used benchmarks demonstrate that OpenRM substantially outperforms existing reward modeling approaches. As a further step, we integrate OpenRM into both inference-time response selection and training-time data selection. This yields consistent gains in downstream LLM alignment tasks, highlighting the potential of tool-augmented reward models for scaling reliable long-form evaluation.
- Abstract(参考訳): リワードモデル(RM)は大規模言語モデル(LLM)の整列に不可欠であり、トレーニングと推論の両方において人間の評価のためのスケーラブルなプロキシとして機能している。
しかし、既存のRMは知識集約的かつ長期的なタスクに苦しむため、モデルの内的知識を超えて正確性を評価する必要がある。
この制限は、特に外部の証拠が必要な場合、微妙な品質差を確実に識別することを妨げる。
ツール拡張型長文報酬モデルであるOpenRMを導入する。このモデルでは,外部ツールを呼び出し,関連する証拠を収集することによって,オープンな応答を体系的に判断する。
我々は、制御可能なデータ合成フレームワークによって生成された27K以上の合成ペアの例に対して、グループ相対ポリシー最適化(GRPO)を用いてOpenRMを訓練する。
トレーニングの目的は,中間ツールの使用状況と最終結果の精度を共同で監視し,有効な証拠に基づく判断戦略を学ぶための報酬モデルにインセンティブを与えることである。
新たにコンパイルされた3つのデータセットと2つの広く使用されているベンチマークに関する大規模な実験は、OpenRMが既存の報酬モデリングアプローチを大幅に上回っていることを示している。
さらなるステップとして、OpenRMを推論時応答選択とトレーニング時データ選択の両方に統合する。
これにより、下流のLLMアライメントタスクにおいて一貫した利得が得られ、信頼性の高い長期評価をスケールするためのツール強化報酬モデルの可能性を強調している。
関連論文リスト
- Rewarding the Journey, Not Just the Destination: A Composite Path and Answer Self-Scoring Reward Mechanism for Test-Time Reinforcement Learning [29.2144357080404]
大規模言語モデル(LLM)の進化のための強力なパラダイムとして強化学習(RL)が登場した。
外部の監督なしに動作する新しいテストタイム報酬機構を開発した。
論文 参考訳(メタデータ) (2025-10-20T07:53:51Z) - Confidence as a Reward: Transforming LLMs into Reward Models [54.98336080630691]
Confidence-as-a-Reward (CRew) は、モデルの最終回答に対するトークンレベルの信頼を報酬のプロキシとして利用する、トレーニング不要の手法である。
CRew は MATH500 および RewardMATH ベンチマークにおいて,既存のトレーニングフリー報酬手法よりも優れていることを示す。
本稿では,信頼度スコアと正当性信号を組み合わせた選好データを構成する訓練戦略であるCRew-DPOを提案する。
論文 参考訳(メタデータ) (2025-10-15T12:51:47Z) - EvolvR: Self-Evolving Pairwise Reasoning for Story Evaluation to Enhance Generation [17.37840331449749]
本稿では,ストーリー評価のための自己進化的ペアワイズ推論(EvolvR)フレームワークを提案する。
フレームワークはまず、マルチペルソナ戦略を通じてスコア整合型Chain-of-Thought(CoT)データを自己合成する。
精巧なデータに基づいて訓練された評価器を報奨モデルとして展開し、ストーリー生成タスクを誘導する。
論文 参考訳(メタデータ) (2025-08-08T06:10:47Z) - From Mathematical Reasoning to Code: Generalization of Process Reward Models in Test-Time Scaling [32.72867198629561]
プレトレーニングと報奨モデルトレーニング FLOP の相互作用について検討し,PRM の効率と精度への影響を評価する。
以上の結果から,数式データセットに基づいてトレーニングしたPRMは,コード生成に適した性能を示すことがわかった。
論文 参考訳(メタデータ) (2025-05-24T12:44:15Z) - Two Minds Better Than One: Collaborative Reward Modeling for LLM Alignment [35.80989342492335]
人間のフィードバックのノイズの多い好みは 報酬の一般化に繋がる
本研究の目的は,報酬モデルにおいて,騒音の嗜好が人間の嗜好とどのように異なるかを明らかにすることである。
我々は、堅牢な選好学習を実現するためのオンラインコラボレーション・リワード・モデリング・フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T10:58:20Z) - Semi-Supervised Reward Modeling via Iterative Self-Training [52.48668920483908]
本稿では,未ラベルデータを用いたRMトレーニングを強化する手法であるSemi-Supervised Reward Modeling (SSRM)を提案する。
SSRMは、追加のラベリングコストを発生させることなく、報酬モデルを大幅に改善することを示した。
全体として、SSRMは、人間が注釈付けした大量のデータへの依存を大幅に減らし、効果的な報酬モデルのトレーニングに要する全体的なコストと時間を削減する。
論文 参考訳(メタデータ) (2024-09-10T22:57:58Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。