論文の概要: Rubrics to Tokens: Bridging Response-level Rubrics and Token-level Rewards in Instruction Following Tasks
- arxiv url: http://arxiv.org/abs/2604.02795v1
- Date: Fri, 03 Apr 2026 07:02:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.367172
- Title: Rubrics to Tokens: Bridging Response-level Rubrics and Token-level Rewards in Instruction Following Tasks
- Title(参考訳): tokens:Bredging Response-level Rubrics and Token-level Rewards in Instruction following Tasks
- Authors: Tianze Xu, Yanzhao Zheng, Pengrui Lu, Lyumanshan Ye, Yong Wu, Zhentao Zhang, Yuanqiang Yu, Chao Ma, Jihuai Zhu, Pengfei Liu, Baohua Dong, Hangcheng Zhu, Ruohui Huang, Gang Yu,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は,大規模言語モデルと複雑なオープンドメイン命令を連携させる,有望なアプローチとして登場した。
既存の手法は主に応答レベルの報酬に依存しており、厳格な報酬の分散と報酬のあいまいさの問題を導入している。
粗い応答レベルスコアときめ細かいトークンレベルクレジット割り当てを橋渡しするルーブリックベースの新しいRLフレームワークを提案する。
- 参考スコア(独自算出の注目度): 30.108876878365496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rubric-based Reinforcement Learning (RL) has emerged as a promising approach for aligning Large Language Models (LLMs) with complex, open-domain instruction following tasks. However, existing methods predominantly rely on response-level rewards, introducing severe reward sparsity and reward ambiguity problems. To address these issues, we propose Rubrics to Tokens (RTT), a novel rubric-based RL framework that bridges coarse response-level scores and fine-grained token-level credit assignment. RTT introduces a Token-Level Relevance Discriminator to predict which tokens in the response are responsible for a specific constraint, and optimizes the policy model via RTT-GRPO, which integrates response-level and token-level advantages within a unified framework. Furthermore, when transitioning from one-dimensional, outcome-level reward to three-dimensional reward space in the token-level rubric-based RL, we propose a novel group normalization method, called Intra-sample Token Group Normalization, to accommodate this shift. Extensive experiments and benchmarks demonstrate that RTT consistently outperforms other baselines in both instruction- and rubric-level accuracy across different models.
- Abstract(参考訳): ルーブリックベースの強化学習(RL)は、大規模言語モデル(LLM)と複雑なオープンドメイン命令を従うための有望なアプローチとして登場した。
しかし、既存の手法は主に応答レベルの報酬に依存しており、厳格な報酬の分散と報酬のあいまいさの問題を導入している。
これらの問題に対処するために、粗い応答レベルスコアときめ細かいトークンレベルクレジット割り当てをブリッジする新しいルーブリックベースのRLフレームワークであるRubrics to Tokens (RTT)を提案する。
RTTは、特定の制約に応答のどのトークンが責任を持つかを予測するToken-Level Relevance Discriminatorを導入し、統一されたフレームワークに応答レベルとトークンレベルのアドバンテージを統合するRTT-GRPOを介してポリシーモデルを最適化する。
さらに、トークンレベルのルーリックベースRLにおいて、1次元の成果レベル報酬から3次元の報酬空間に移行する際に、このシフトに対応するために、サンプル内トークングループ正規化と呼ばれる新しいグループ正規化法を提案する。
大規模な実験とベンチマークにより、RTTは異なるモデルにわたる命令レベルとルーリックレベルの精度の両方において、他のベースラインを一貫して上回ることを示した。
関連論文リスト
- From Absolute to Relative: Rethinking Reward Shaping in Group-Based Reinforcement Learning [7.6602542594279335]
本稿では,報酬形成を絶対得点から相対ランクへシフトさせるために,相対報酬を用いた強化学習を提案する。
RLRRは、推論ベンチマークやオープン・エンド・ジェネレーションタスクにおいて、標準グループベースベースラインよりも一貫した性能向上をもたらすことを示す。
論文 参考訳(メタデータ) (2026-01-30T15:07:06Z) - Owen-Shapley Policy Optimization (OSPO): A Principled RL Algorithm for Generative Search LLMs [12.75200353208858]
Owen-Shapley Policy Optimization (OSPO)は、トークンの成果に対する限界貢献に基づいて、シーケンスレベルの利点を再分配するフレームワークである。
付加的な計算を必要とする値モデルベースの方法とは異なり、OSPOはセグメントレベルのクレジットを割り当てるためにShapley-Owen属性を介して潜在的ベースの報酬シェーピングを採用する。
Amazon ESCIとH&M Fashionデータセットの実験は、ベースラインよりも一貫した利得を示している。
論文 参考訳(メタデータ) (2026-01-13T10:17:46Z) - GroupRank: A Groupwise Reranking Paradigm Driven by Reinforcement Learning [26.616849067985967]
Groupwiseは、大規模な言語モデルのための新しいパラダイムである。
高品質な検索とランキングデータのための革新的なパイプラインを提案する。
得られたデータは、リランカのトレーニングだけでなく、レトリバーのトレーニングにも利用することができる。
論文 参考訳(メタデータ) (2025-11-10T15:25:31Z) - Token-Level Policy Optimization: Linking Group-Level Rewards to Token-Level Aggregation via Markov Likelihood [9.335167757513046]
TEPOはトークンレベルのアグリゲーションを通じてグループレベルの報酬とトークンをリンクする,Markov Likelihood(シーケンス可能性)を組み込んだ新しいトークンレベルのフレームワークである。
実験によると、TEPOは主要なメトリクスで既存のベースラインを一貫して上回っている。
数学的推論タスクに新たな技術状態を設定するだけでなく、トレーニングの安定性を著しく向上させる。
論文 参考訳(メタデータ) (2025-10-10T13:25:28Z) - Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。
提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文 参考訳(メタデータ) (2025-06-10T12:59:14Z) - Response-Level Rewards Are All You Need for Online Reinforcement Learning in LLMs: A Mathematical Perspective [6.069069082518759]
大規模言語モデル(LLM)の強化学習におけるゼロ・リワード推定について検討する。
反応レベル報酬モデルのみを用いて、真で未知のトークンレベルの報酬に基づくポリシー勾配を不偏に推定できることを示す。
我々は,新しいアルゴリズム,Token-Reinforced Policy Optimization (TRePO)を提案する。
論文 参考訳(メタデータ) (2025-06-03T07:44:31Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。