論文の概要: Token-Regulated Group Relative Policy Optimization for Stable Reinforcement Learning in Large Language Models
- arxiv url: http://arxiv.org/abs/2511.00066v1
- Date: Wed, 29 Oct 2025 08:07:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.55591
- Title: Token-Regulated Group Relative Policy Optimization for Stable Reinforcement Learning in Large Language Models
- Title(参考訳): 大規模言語モデルにおける安定強化学習のためのToken-Regulated Group Relative Policy Optimization
- Authors: Tue Le, Nghi D. Q. Bui, Linh Ngo Van, Trung Le,
- Abstract要約: グループ相対政策最適化(GRPO)は、高いパフォーマンスを示している。
低確率トークンが不均等に勾配更新を支配している。
この不均衡は不安定なトレーニングをもたらし、高確率トークンの寄与を抑制する。
- 参考スコア(独自算出の注目度): 18.785063555637613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has emerged as a powerful approach for strengthening the reasoning capabilities of large language models (LLMs). Among existing algorithms, Group Relative Policy Optimization (GRPO) has demonstrated strong performance, yet it suffers from a critical issue: low-probability tokens disproportionately dominate gradient updates due to their inherently large gradient magnitudes. This imbalance leads to unstable training and suppresses the contribution of high-probability tokens that are more reliable for learning. In this work, we introduce Token-Regulated Group Relative Policy Optimization (TR-GRPO), a simple yet effective extension of GRPO that assigns token-level weights positively correlated with the model's predicted probability. By downweighting low-probability tokens and emphasizing high-probability ones, TR-GRPO mitigates gradient over-amplification while preserving informative learning signals. Extensive experiments demonstrate that TR-GRPO consistently outperforms GRPO across RLVR tasks, including logic, math, and agentic reasoning, highlighting the importance of regulating token contributions during RL training and establishing TR-GRPO as a robust framework for enhancing LLM reasoning.
- Abstract(参考訳): 検証可能な報酬(RLVR)を用いた強化学習は,大規模言語モデル(LLM)の推論能力を強化するための強力なアプローチとして現れている。
既存のアルゴリズムの中で、グループ相対ポリシー最適化(GRPO)は高い性能を示してきたが、これは重大な問題に悩まされている。
この不均衡は不安定なトレーニングをもたらし、学習に信頼性の高い高確率トークンの寄与を抑制する。
本研究では,トークンレベルの重み付けをモデルが予測する確率に正に相関させる,GRPOの単純かつ効果的な拡張であるToken-Regulated Group Relative Policy Optimization (TR-GRPO)を紹介する。
低確率トークンの重み付けと高確率トークン強調により、TR-GRPOは情報的学習信号を保持しながら勾配過度増幅を緩和する。
TR-GRPOは、論理、数学、エージェント推論を含むRLVRタスクにおいてGRPOを一貫して上回り、RLトレーニングにおいてトークンの寄与を規制することの重要性を強調し、LLM推論を強化するための堅牢なフレームワークとしてTR-GRPOを確立する。
関連論文リスト
- ASPO: Asymmetric Importance Sampling Policy Optimization [31.38346888572171]
ポジティブアドバンテージトークンのImportance Smpling(IS)比は不一致であり、正および負のトークンに対するアンバランストークン重み付けにつながる。
このミスマッチは、既に高確率のトークンを過剰に増幅しながら、低確率トークンの更新を抑制する。
我々は,IS比の正アドバンテージトークンを反転させるシンプルかつ効果的な戦略を用いた非対称的重要度サンプリングポリシー最適化(ASPO)を提案する。
論文 参考訳(メタデータ) (2025-10-07T15:54:24Z) - Token Hidden Reward: Steering Exploration-Exploitation in Group Relative Deep Reinforcement Learning [64.04741347596938]
Token Hidden Reward (THR) はトークンレベルのメトリクスで、それぞれのトークンが正しい応答の確率に与える影響を定量化する。
トレーニングダイナミクスは、高い絶対THR値を持つトークンの小さなサブセットに支配されている。
この知見は、GRPOの学習信号を修正し、エクスプロイトや探索に向けて明示的にバイアストレーニングを行うTHR誘導再重み付けアルゴリズムを示唆している。
論文 参考訳(メタデータ) (2025-10-04T04:49:44Z) - On the Effect of Negative Gradient in Group Relative Deep Reinforcement Optimization [52.76330545825083]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力の向上に人気がある。
従来認識されていなかった Lazy Likelihood Displacement (LLD) 現象を同定し, トレーニング中に正答率がわずかに増加するか, あるいは低下する可能性が示唆された。
従来のDPOベースのアプローチとは異なり、NTHRはGRPOのグループベースの構造を利用して、適切な応答をアンカーとして利用し、重要なトークンを識別する。
論文 参考訳(メタデータ) (2025-05-24T18:58:51Z) - Do Not Let Low-Probability Tokens Over-Dominate in RL for LLMs [25.575582861331405]
低確率トークンは、大きな勾配のマグニチュードのため、モデルの更新に不均等に影響を及ぼす。
我々は2つの新しい手法を提案する: アドバンテージリウェイトと低確率トークン分離(Lopti)
我々のアプローチは、様々な確率でトークン間のバランスの取れた更新を促進し、強化学習の効率を高める。
論文 参考訳(メタデータ) (2025-05-19T10:14:08Z) - Token-Efficient RL for LLM Reasoning [0.02488650627593658]
本稿では,大規模言語モデル (LLM) において,厳密なメモリと計算限界下での推論に適した強化学習戦略を提案する。
ベースラインサブトラクションを用いた早期ポリシー勾配法に基づいて,出力トークンの小さな情報サブセット上で動作する批判のない手法を設計する。
提案手法は,SVAMPベンチマークの精度を46%から70%以上に向上し,マルチ桁乗算において高い性能を示した。
論文 参考訳(メタデータ) (2025-04-29T14:58:43Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。