論文の概要: GTPO and GRPO-S: Token and Sequence-Level Reward Shaping with Policy Entropy
- arxiv url: http://arxiv.org/abs/2508.04349v1
- Date: Wed, 06 Aug 2025 11:42:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.697739
- Title: GTPO and GRPO-S: Token and Sequence-Level Reward Shaping with Policy Entropy
- Title(参考訳): GTPOとGRPO-S:政策エントロピーを考慮したトークンとシーケンスレベルリワード形成
- Authors: Hongze Tan, Jianfei Pan,
- Abstract要約: グループ相対政策最適化(GRPO)のようなアルゴリズムによる強化学習(RL)は、LLM推論を改善する。
本稿では,textbfDynamic Entropy Weightingを用いてこの問題を解決する。
私たちの中核的な考え方は、正しい応答における高エントロピートークンは、より高いパフォーマンスの天井に向かってポリシーを導くことができるということです。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) with algorithms like Group Relative Policy Optimization (GRPO) improves Large Language Model (LLM) reasoning, but is limited by a coarse-grained credit assignment that applies a uniform reward to all tokens in a sequence. This is a major flaw in long-chain reasoning tasks. This paper solves this with \textbf{Dynamic Entropy Weighting}. Our core idea is that high-entropy tokens in correct responses can guide the policy toward a higher performance ceiling. This allows us to create more fine-grained reward signals for precise policy updates via two ways: 1) \textbf{Group Token Policy Optimization} (\textbf{GTPO}), we assigns a entropy-weighted reward to each token for fine-grained credit assignment. 2) \textbf{Sequence-Level Group Relative Policy Optimization} (\textbf{GRPO-S}), we assigns a entropy-weighted reward to each sequence based on its average token entropy. Experiments show our methods significantly outperform the strong DAPO baseline. The results confirm that our entropy-weighting mechanism is the key driver of this performance boost, offering a better path to enhance deep reasoning in models.
- Abstract(参考訳): グループ相対ポリシー最適化 (GRPO) のようなアルゴリズムを用いた強化学習 (RL) は、大規模言語モデル (LLM) 推論を改善するが、列内の全てのトークンに均一な報酬を与える粗粒度のクレジット代入によって制限される。
これは長鎖推論タスクの重大な欠陥です。
本稿では、これをtextbf{Dynamic Entropy Weighting}で解決する。
私たちの中核的な考え方は、正しい応答における高エントロピートークンは、より高いパフォーマンスの天井に向かってポリシーを導くことができるということです。
これにより、2つの方法で、正確なポリシー更新のためのよりきめ細かい報酬信号を作成することができます。
1) \textbf{Group Token Policy Optimization} (\textbf{GTPO}) では, それぞれのトークンにエントロピー重み付き報酬を割り当て, 詳細なクレジット割り当てを行う。
2) \textbf{Sequence-Level Group Relative Policy Optimization} (\textbf{GRPO-S}) では、平均トークンエントロピーに基づいてエントロピー重み付き報酬を各シーケンスに割り当てる。
実験により,本手法は強いDAPOベースラインを著しく上回ることがわかった。
その結果、我々のエントロピー重み付け機構がこの性能向上の鍵となることが確認され、モデルにおける深い推論を強化するためのより良い経路が提供される。
関連論文リスト
- Group Sequence Policy Optimization [55.40088895148603]
Group Sequence Policy Optimization (GSPO) は、安定的で効率的でパフォーマンスの高い強化学習アルゴリズムである。
GSPOは、シーケンスの確率に基づいて重要度を定義し、シーケンスレベルのクリッピング、報酬、最適化を行う。
論文 参考訳(メタデータ) (2025-07-24T03:50:32Z) - TGDPO: Harnessing Token-Level Reward Guidance for Enhancing Direct Preference Optimization [73.16975077770765]
近年の強化学習の進歩は、きめ細かいトークンレベルの報酬モデルを利用することで、PPO(Pximal Policy Optimization)の性能を大幅に向上させることができることを示している。
直接選好最適化(DPO)のガイダンスとしてこのようなトークンレベルの報酬を活用することは困難である。
この研究は、PPOをトークンレベルのポリシー最適化問題列に分解し、トークンレベルの報酬ガイダンスでトークンレベルのPPOの問題をフレーム化する。
論文 参考訳(メタデータ) (2025-06-17T14:30:06Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models [99.98293908799731]
本稿では,LLMによる推論,すなわち政策エントロピーの崩壊において,RLのスケーリングの大きな障害を克服することを目的としている。
実際には、エントロピーHと下流性能Rの間の変換方程式R=-a*eH+bを確立する。
Clip-Cov と KL-Cov という2つの単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:38:45Z) - Learning Explainable Dense Reward Shapes via Bayesian Optimization [45.34810347865996]
トークンレベルのクレジット代入に焦点をあてた最適化問題として、報酬形成の枠組みを定めている。
SHAP や LIME などの説明可能性法を用いて,報酬モデルから各報酬を推定する。
実験の結果,トークンレベルの報酬属性のバランスが良くなると,ベースラインよりもパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2025-04-22T21:09:33Z) - Reinforcement Learning with Verifiable Rewards: GRPO's Effective Loss, Dynamics, and Success Amplification [19.315342870604113]
Group Relative Policy Optimizationが最近導入され、DeepSeek-R1モデルのトレーニングに成功している。
この論文では、検証可能な報酬を持つGRPOは、Kulback--Leibler が対照的な損失を正則化できることを示す。
固定点$p*$が$p_textref$より大きいことが保証され、GRPOがポリシーの成功確率を効果的に増幅することを示す。
論文 参考訳(メタデータ) (2025-03-09T14:36:45Z) - Maximum Entropy On-Policy Actor-Critic via Entropy Advantage Estimation [0.276240219662896]
エントロピー正則化の顕著な形態は、目的をエントロピー項で増大させ、それによって期待されるリターンとエントロピーを同時に最適化することである。
最大エントロピー強化学習(MaxEnt RL)として知られるこのフレームワークは、理論的および実証的な成功を示している。
本稿では,MaxEnt RL目標からエントロピー目的を分離する簡単な手法を提案する。
論文 参考訳(メタデータ) (2024-07-25T15:48:24Z) - DPO Meets PPO: Reinforced Token Optimization for RLHF [35.638723885233475]
本稿では,トークンワイド報酬関数を選好データから学習し,この学習したトークンワイド報酬信号に基づいてポリシー最適化を行うアルゴリズムを提案する。
実験により、texttRTOはPPOや他の直接選好学習アルゴリズムよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-04-29T17:58:30Z) - From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
我々は,ベルマン方程式を満たす一般逆Q-ラーニングアルゴリズムとして,トークンレベルMDPのDPOを導出できることを示す。
本稿では,マルチターン対話における情報活用,推論,エージェント応用,マルチモデルシステムのエンドツーエンドトレーニングなど,我々の研究の応用について論じる。
論文 参考訳(メタデータ) (2024-04-18T17:37:02Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Do You Need the Entropy Reward (in Practice)? [29.811723497181486]
エントロピーによって課される規則化は、政策改善と政策評価の両方において、共に優れた探索、訓練の収束、学習された政策の堅牢性に寄与していると考えられている。
本稿では,ソフトアクター・クリティック(SAC)の様々なアブレーション研究を行い,エントロピーを本質的な報酬としてより深く考察する。
以上の結果から,一般にエントロピー報酬は政策評価に注意を払って適用すべきであることが示唆された。
論文 参考訳(メタデータ) (2022-01-28T21:43:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。