論文の概要: Token-Level Policy Optimization: Linking Group-Level Rewards to Token-Level Aggregation via Sequence-Level Likelihood
- arxiv url: http://arxiv.org/abs/2604.12736v1
- Date: Tue, 14 Apr 2026 13:50:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.465977
- Title: Token-Level Policy Optimization: Linking Group-Level Rewards to Token-Level Aggregation via Sequence-Level Likelihood
- Title(参考訳): token-Level Policy Optimization:Linking Group-Level Rewards to Token-Level Aggregation via Sequence-Level Likelihood
- Authors: Xingyu Lin, Yilin Wen, Du Su, Jinchang Hou, En Wang, Wenbin Liu, Chenfu Bao, Zhonghou Lv,
- Abstract要約: TEPOは,グループレベルの報酬を個々のトークンに関連付けるために,シーケンスレベルの可能性を活用する新しいトークンレベルのフレームワークである。
TEPOが数学的推論ベンチマークで最先端のパフォーマンスを達成することを示す実験結果が得られた。
また、GRPO/DAPOと比較して、トレーニングの安定性を著しく向上し、収束時間を50%削減する。
- 参考スコア(独自算出の注目度): 9.53011880338711
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group Relative Policy Optimization (GRPO) has significantly advanced the reasoning ability of large language models (LLMs), particularly in their mathemat ical reasoning performance. However, GRPO and related entropy regularization methods still struggle with token-level sparse-rewards, which is an inherent chal lenge in chain-of-thought (CoT) reasoning. These approaches often rely on undifferen tiated token-level entropy regularization, which easily leads to entropy collapse or model degradation under sparse token rewards. In this work, we propose TEPO, a novel token-level framework that (1) leverages sequence-level likelihood to link group-level rewards with individual tokens via token-level aggregation, and (2) introduces a token-level KL-Divergence mask constraint that targets tokens with positive advantages and decreasing entropy to mitigate abrupt policy updates. Experiments demonstrate that TEPO not only achieves state-of-the-art performance on mathematical reasoning benchmarks but also markedly enhances training stability, reducing convergence time by 50% compared with GRPO/DAPO.
- Abstract(参考訳): グループ相対政策最適化(GRPO)は大規模言語モデル(LLM)の推論能力を大幅に向上させた。
しかし、GRPOと関連するエントロピー正則化法は依然としてトークンレベルのスパース逆数に苦慮しており、これはチェーン・オブ・ソート(CoT)推論における固有のチャルレンジである。
これらのアプローチは、しばしば未分化のトークンレベルのエントロピー正規化に依存しており、これは容易にエントロピーの崩壊や、スパーストークンの報酬の下でのモデル劣化につながる。
本研究では,(1)トークンレベルのアグリゲーションを通じて,グループレベルの報酬を個々のトークンにリンクするためのシーケンスレベル確率を活用する新しいトークンレベルフレームワークTEPOを提案する。
実験により、TEPOは数学推論ベンチマークで最先端のパフォーマンスを達成するだけでなく、トレーニングの安定性を著しく向上し、GRPO/DAPOと比較して収束時間を50%短縮することを示した。
関連論文リスト
- SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks [41.49967840381499]
Sequence-Level PPO (SPPO) は、PPOのサンプルテキスト効率と結果ベースの更新の安定性を調和させるスケーラブルなアルゴリズムである。
SPPOは標準のPPOをはるかに上回り、計算量の多いグループベースの手法の性能に匹敵する。
論文 参考訳(メタデータ) (2026-04-10T01:58:21Z) - Rubrics to Tokens: Bridging Response-level Rubrics and Token-level Rewards in Instruction Following Tasks [30.108876878365496]
強化学習(Reinforcement Learning, RL)は,大規模言語モデルと複雑なオープンドメイン命令を連携させる,有望なアプローチとして登場した。
既存の手法は主に応答レベルの報酬に依存しており、厳格な報酬の分散と報酬のあいまいさの問題を導入している。
粗い応答レベルスコアときめ細かいトークンレベルクレジット割り当てを橋渡しするルーブリックベースの新しいRLフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-03T07:02:57Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Outcome-Grounded Advantage Reshaping for Fine-Grained Credit Assignment in Mathematical Reasoning [60.00161035836637]
グループ相対政策最適化は、推論タスクのための有望な批判のない強化学習パラダイムとして登場した。
我々は,各トークンがモデルの最終回答にどの程度影響するかに基づいて,利益を再分配する,きめ細かい信用割当機構であるOutcome-grounded Advantage Reshaping (OAR)を紹介した。
OAR-Gは計算オーバーヘッドを無視して同等のゲインを達成し、どちらも強力なGRPOベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2026-01-12T10:48:02Z) - Orchestrating Tokens and Sequences: Dynamic Hybrid Policy Optimization for RLVR [31.43482175098666]
Reinforcement Learning with Verifiable Rewards (RLVR)は,大規模言語モデルを推論タスクで最適化するための,有望なフレームワークを提供する。
既存のRLVRアルゴリズムは様々な粒度に重点を置いており、それぞれに相補的な強度と制限がある。
本稿では, GRPO と GSPO を単一のクリッピングサロゲート対象にブリッジする動的ハイブリッドポリシー最適化 (DHPO) を提案する。
論文 参考訳(メタデータ) (2026-01-09T07:57:40Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - Token-Level Policy Optimization: Linking Group-Level Rewards to Token-Level Aggregation via Markov Likelihood [9.335167757513046]
TEPOはトークンレベルのアグリゲーションを通じてグループレベルの報酬とトークンをリンクする,Markov Likelihood(シーケンス可能性)を組み込んだ新しいトークンレベルのフレームワークである。
実験によると、TEPOは主要なメトリクスで既存のベースラインを一貫して上回っている。
数学的推論タスクに新たな技術状態を設定するだけでなく、トレーニングの安定性を著しく向上させる。
論文 参考訳(メタデータ) (2025-10-10T13:25:28Z) - GTPO and GRPO-S: Token and Sequence-Level Reward Shaping with Policy Entropy [5.691990020513277]
本稿では,2つの新しいアルゴリズムによる報酬の微粒化を促進するメカニズムである動的エントロピー重み付けを提案する。
報酬形成のための政策のエントロピーを再取得することで、我々は真にトークン単位の信用割り当てを達成できる。
論文 参考訳(メタデータ) (2025-08-06T11:42:47Z) - TGDPO: Harnessing Token-Level Reward Guidance for Enhancing Direct Preference Optimization [73.16975077770765]
近年の強化学習の進歩は、きめ細かいトークンレベルの報酬モデルを利用することで、PPO(Pximal Policy Optimization)の性能を大幅に向上させることができることを示している。
直接選好最適化(DPO)のガイダンスとしてこのようなトークンレベルの報酬を活用することは困難である。
この研究は、PPOをトークンレベルのポリシー最適化問題列に分解し、トークンレベルの報酬ガイダンスでトークンレベルのPPOの問題をフレーム化する。
論文 参考訳(メタデータ) (2025-06-17T14:30:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。