論文の概要: Token Hidden Reward: Steering Exploration-Exploitation in Group Relative Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.03669v1
- Date: Sat, 04 Oct 2025 04:49:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.186208
- Title: Token Hidden Reward: Steering Exploration-Exploitation in Group Relative Deep Reinforcement Learning
- Title(参考訳): Token Hidden Reward: グループ相対的深層強化学習における探索と探索
- Authors: Wenlong Deng, Yi Ren, Yushu Li, Boying Gong, Danica J. Sutherland, Xiaoxiao Li, Christos Thrampoulidis,
- Abstract要約: Token Hidden Reward (THR) はトークンレベルのメトリクスで、それぞれのトークンが正しい応答の確率に与える影響を定量化する。
トレーニングダイナミクスは、高い絶対THR値を持つトークンの小さなサブセットに支配されている。
この知見は、GRPOの学習信号を修正し、エクスプロイトや探索に向けて明示的にバイアストレーニングを行うTHR誘導再重み付けアルゴリズムを示唆している。
- 参考スコア(独自算出の注目度): 64.04741347596938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards has significantly advanced the reasoning capabilities of large language models, yet how to explicitly steer training toward exploration or exploitation remains an open problem. We introduce Token Hidden Reward (THR), a token-level metric that quantifies each token's influence on the likelihood of correct responses under Group Relative Policy Optimization (GRPO). We find that training dynamics are dominated by a small subset of tokens with high absolute THR values. Most interestingly, tokens with positive THR strengthen confidence in correct outputs, thus favoring exploitation, while tokens with negative THR preserve probability mass for alternative outputs, enabling exploration. This insight suggests a natural intervention: a THR-guided reweighting algorithm that modulates GRPO's learning signals to explicitly bias training toward exploitation or exploration. We validate the efficacy of this algorithm on diverse math reasoning benchmarks. By amplifying tokens with positive THR value and weakening negative ones, our algorithm improves greedy-decoding accuracy, favoring exploitation. The reverse strategy yields consistent gains in Pass@K accuracy, favoring exploration. We further demonstrate that our algorithm integrates seamlessly with other RL objectives such as GSPO and generalizes across architectures including Llama. These findings establish THR as a principled and fine-grained mechanism for dynamically controlling exploration and exploitation in RL-tuned LLMs, providing new tools for targeted fine-tuning in reasoning-intensive applications.
- Abstract(参考訳): 検証可能な報酬を伴う強化学習は、大きな言語モデルの推論能力を大幅に向上させたが、探索や搾取に向けたトレーニングを明示的に行う方法は、未解決の問題のままである。
Token Hidden Reward(THR)は,グループ相対政策最適化(GRPO)の下で,各トークンが正しい応答の可能性に与える影響を定量化するトークンレベルの指標である。
トレーニングダイナミクスは、高い絶対THR値を持つトークンの小さなサブセットに支配されている。
最も興味深いのは、正のTHRを持つトークンは正しい出力の信頼性を強化し、それによって悪用が好まれる一方で、負のTHRを持つトークンは代替出力の確率質量を保持し、探索を可能にすることである。
THR誘導再重み付けアルゴリズムは、GRPOの学習信号を修正し、エクスプロイトや探索に向けて明示的にバイアストレーニングを行う。
本アルゴリズムの有効性を,多種多様な数学推論ベンチマークで検証する。
正のTHR値でトークンを増幅し、負のトークンを弱めることにより、このアルゴリズムはグレディ復号精度を改善し、利用を優先する。
逆戦略は、Pass@Kの精度で一貫した利得をもたらし、探索に有利である。
さらに,本アルゴリズムはGSPOなどの他のRL目標とシームレスに統合され,Llamaを含むアーキテクチャ全体にわたって一般化されることを示す。
これらの結果から, THR は RL 調整 LLM の探索・利用を動的に制御するための原理的かつきめ細かな機構として確立し, 推論集約型アプリケーションにおいて, 新たな微調整ツールを提供する。
関連論文リスト
- Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。
我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。
私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-07-16T17:59:24Z) - Asymmetric REINFORCE for off-Policy Reinforcement Learning: Balancing positive and negative rewards [17.695285420477035]
オフポリシーRLと教師付き微調整の中間領域のアルゴリズムについて検討する。
まず、このオフポリティREINFORCEアルゴリズムの理論的解析を行う。
我々の分析によると、オンライン更新はポジティブな信号とネガティブな信号の両方を安全に活用できるが、オフライン更新は、ネガティブな信号よりもポジティブな報酬にフォーカスすることの恩恵を受ける。
論文 参考訳(メタデータ) (2025-06-25T15:07:16Z) - Response-Level Rewards Are All You Need for Online Reinforcement Learning in LLMs: A Mathematical Perspective [6.069069082518759]
大規模言語モデル(LLM)の強化学習におけるゼロ・リワード推定について検討する。
反応レベル報酬モデルのみを用いて、真で未知のトークンレベルの報酬に基づくポリシー勾配を不偏に推定できることを示す。
我々は,新しいアルゴリズム,Token-Reinforced Policy Optimization (TRePO)を提案する。
論文 参考訳(メタデータ) (2025-06-03T07:44:31Z) - Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:01:06Z) - On the Effect of Negative Gradient in Group Relative Deep Reinforcement Optimization [52.76330545825083]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力の向上に人気がある。
従来認識されていなかった Lazy Likelihood Displacement (LLD) 現象を同定し, トレーニング中に正答率がわずかに増加するか, あるいは低下する可能性が示唆された。
従来のDPOベースのアプローチとは異なり、NTHRはGRPOのグループベースの構造を利用して、適切な応答をアンカーとして利用し、重要なトークンを識別する。
論文 参考訳(メタデータ) (2025-05-24T18:58:51Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - Reward Guidance for Reinforcement Learning Tasks Based on Large Language Models: The LMGT Framework [1.5802986215292307]
Language Model Guided reward Tuning (LMGT)は、強化学習のための新しい、サンプル効率の高いフレームワークである。
我々は,LMGTが探索と搾取のバランスを良好に保ち,エージェントの探索行動の指針となることを示す。
以上の結果から,LMGTはRL学習期間中に必要な計算資源を大幅に削減できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-07T07:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。