論文の概要: Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2506.01939v1
- Date: Mon, 02 Jun 2025 17:54:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.695033
- Title: Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning
- Title(参考訳): 80/20ルールを超えて:LLM推論のための効果的な強化学習を駆動する高エントロピーマイノリティトークン
- Authors: Shenzhi Wang, Le Yu, Chang Gao, Chujie Zheng, Shixuan Liu, Rui Lu, Kai Dang, Xionghui Chen, Jianxin Yang, Zhenru Zhang, Yuqiong Liu, An Yang, Andrew Zhao, Yang Yue, Shiji Song, Bowen Yu, Gao Huang, Junyang Lin,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)は,Large Language Models(LLM)の推論能力向上のための強力なアプローチとして登場した。
本研究では,トークンエントロピーパターンの新たな視点からRLVRの先駆的な探索を行う。
トークンのごく一部だけが高いエントロピーを示しており、これらのトークンは様々な推論経路に向けてモデルを操る重要なフォークとして機能する。
- 参考スコア(独自算出の注目度): 80.87085014818052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a powerful approach to enhancing the reasoning capabilities of Large Language Models (LLMs), while its mechanisms are not yet well understood. In this work, we undertake a pioneering exploration of RLVR through the novel perspective of token entropy patterns, comprehensively analyzing how different tokens influence reasoning performance. By examining token entropy patterns in Chain-of-Thought (CoT) reasoning, we observe that only a small fraction of tokens exhibit high entropy, and these tokens act as critical forks that steer the model toward diverse reasoning pathways. Furthermore, studying how entropy patterns evolve during RLVR training reveals that RLVR largely adheres to the base model's entropy patterns, primarily adjusting the entropy of high-entropy tokens. These findings highlight the significance of high-entropy tokens (i.e., forking tokens) to RLVR. We ultimately improve RLVR by restricting policy gradient updates to forking tokens and uncover a finding even beyond the 80/20 rule: utilizing only 20% of the tokens while maintaining performance comparable to full-gradient updates on the Qwen3-8B base model and significantly surpassing full-gradient updates on the Qwen3-32B (+11.04 on AIME'25 and +7.71 on AIME'24) and Qwen3-14B (+4.79 on AIME'25 and +5.21 on AIME'24) base models, highlighting a strong scaling trend. In contrast, training exclusively on the 80% lowest-entropy tokens leads to a marked decline in performance. These findings indicate that the efficacy of RLVR primarily arises from optimizing the high-entropy tokens that decide reasoning directions. Collectively, our results highlight the potential to understand RLVR through a token-entropy perspective and optimize RLVR by leveraging high-entropy minority tokens to further improve LLM reasoning.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) は、Large Language Models (LLM) の推論能力を高める強力なアプローチとして登場したが、そのメカニズムはまだよく分かっていない。
本研究では、トークンエントロピーパターンの新たな視点からRLVRの先駆的な探索を行い、異なるトークンが推論性能にどのように影響するかを包括的に分析する。
CoT(Chain-of-Thought)推論におけるトークンエントロピーパターンを調べることで、トークンのごく一部だけが高いエントロピーを示しており、これらのトークンは様々な推論経路に向けてモデルを操る重要なフォークとして機能する。
さらに、RLVRトレーニング中にエントロピーパターンがどのように進化するかを研究すると、RLVRはベースモデルのエントロピーパターンに大きく依存し、主に高エントロピートークンのエントロピーを調整する。
これらの知見は、RLVRに対する高エントロピートークン(すなわち、トークンをフォークする)の重要性を強調している。
Qwen3-32Bベースモデル(AIME'25では+11.04、AIME'24では+7.71)とQwen3-14B(AIME'25では+4.79、AIME'24では+5.21)のフルグレートアップデートをはるかに上回っており、強力なスケーリング傾向を示している。
対照的に、80%低いエントロピートークンのみをトレーニングすることで、パフォーマンスが著しく低下する。
これらの結果から,RLVRの有効性は主に推論方向を決定する高エントロピートークンの最適化から生じることが示唆された。
総括的に,トークンエントロピーの観点からRLVRを理解する可能性を強調し,高エントロピーマイノリティトークンを活用してLLM推論をさらに改善することでRLVRを最適化する。
関連論文リスト
- The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning [43.310209758380886]
検証可能な報酬を伴う強化学習(RLVR)は、言語モデル(LM)のトレーニングに有望なアプローチである
我々は学習信号を正しい応答の強化と正負の正負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
我々は、NSRが不正確な世代を抑え、確率質量を他の可算候補に向けて再分配することで、モデルの以前の信念に導かれることを示す。
論文 参考訳(メタデータ) (2025-06-02T06:10:54Z) - Do Not Let Low-Probability Tokens Over-Dominate in RL for LLMs [25.575582861331405]
低確率トークンは、大きな勾配のマグニチュードのため、モデルの更新に不均等に影響を及ぼす。
我々は2つの新しい手法を提案する: アドバンテージリウェイトと低確率トークン分離(Lopti)
我々のアプローチは、様々な確率でトークン間のバランスの取れた更新を促進し、強化学習の効率を高める。
論文 参考訳(メタデータ) (2025-05-19T10:14:08Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。