論文の概要: STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens
- arxiv url: http://arxiv.org/abs/2602.15620v1
- Date: Tue, 17 Feb 2026 14:46:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.094646
- Title: STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens
- Title(参考訳): STAPO:希少な清涼飲料のサイレンシングによるLLMの強化学習の安定化
- Authors: Shiqi Liu, Zeyu He, Guojian Zhan, Letian Tao, Zhilong Zheng, Jiang Wu, Yinuo Wang, Yang Guan, Kehua Sheng, Bo Zhang, Keqiang Li, Jingliang Duan, Shengbo Eben Li,
- Abstract要約: トレーニング不安定性は約0.01%の少量のトークンによって駆動されることを示す。
大規模モデル精錬におけるSTAPO(Spurious-Token-Aware Policy Optimization)を提案する。
- 参考スコア(独自算出の注目度): 38.425692691443764
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement Learning (RL) has significantly improved large language model reasoning, but existing RL fine-tuning methods rely heavily on heuristic techniques such as entropy regularization and reweighting to maintain stability. In practice, they often experience late-stage performance collapse, leading to degraded reasoning quality and unstable training. We derive that the magnitude of token-wise policy gradients in RL is negatively correlated with token probability and local policy entropy. Building on this result, we prove that training instability is driven by a tiny fraction of tokens, approximately 0.01\%, which we term \emph{spurious tokens}. When such tokens appear in correct responses, they contribute little to the reasoning outcome but inherit the full sequence-level reward, leading to abnormally amplified gradient updates. Motivated by this observation, we propose Spurious-Token-Aware Policy Optimization (STAPO) for large-scale model refining, which selectively masks such updates and renormalizes the loss over valid tokens. Across six mathematical reasoning benchmarks using Qwen 1.7B, 8B, and 14B base models, STAPO consistently demonstrates superior entropy stability and achieves an average performance improvement of 7.13\% over GRPO, 20-Entropy and JustRL.
- Abstract(参考訳): 強化学習(RL)は大規模言語モデルの推論を大幅に改善したが、既存のRLファインチューニング手法は安定性を維持するためにエントロピー正則化や再重み付けのようなヒューリスティックな手法に大きく依存している。
実際には、彼らはしばしば後期的なパフォーマンスの崩壊を経験し、推論品質の低下と不安定なトレーニングにつながります。
RLにおけるトークン単位の政策勾配の大きさは、トークン確率と局所的な政策エントロピーと負の相関関係があることを導出する。
この結果に基づいて、トレーニングの不安定性は、およそ0.01\%の少量のトークンによって駆動されることを証明し、これを 'emph{spurious tokens} と呼ぶ。
このようなトークンが正しい応答に現れると、推論結果にはほとんど寄与しないが、完全なシーケンスレベルの報酬を継承し、異常に増幅された勾配更新をもたらす。
本研究の目的は,大規模モデル精錬のためのSTAPO(Spurious-Token-Aware Policy Optimization)を提案することである。
Qwen 1.7B, 8B, 14Bベースモデルを用いた6つの数学的推論ベンチマークにおいて、STAPOは一貫して優れたエントロピー安定性を示し、GRPO、20エントロピー、JustRLよりも平均7.13\%の性能向上を実現している。
関連論文リスト
- Online Causal Kalman Filtering for Stable and Effective Policy Optimization [23.37041897899078]
トークンレベルでの局所的なオフ・ポリティクスの偏差は構造的に不整合であることを示す。
安定かつ効果的な政策最適化のためのオンライン因果カルマンフィルタを提案する。
論文 参考訳(メタデータ) (2026-02-11T07:57:43Z) - Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities [10.235183326885794]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLMs)における推論の強化に欠かせないパラダイムとして登場した。
我々は、この問題をサンプリング確率力学の観点から分析し、標準目的が高次様相の経路を不均等に強化することを特定する。
提案手法は,すべての応答に対する信頼度を平衡化するための新しいアドバンテージ再重み付け機構 (ARM) を提案する。
論文 参考訳(メタデータ) (2026-02-05T04:06:55Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - Revisiting Entropy in Reinforcement Learning for Large Reasoning Models [54.96908589622163]
検証可能な報酬(RLVR)を用いた強化学習で訓練した大規模言語モデルのエントロピーダイナミクスについて検討する。
以上の結果から,RLVRでトレーニングしたLDMのエントロピーに影響を及ぼす重要な要因として,非政治的更新数,トレーニングデータの多様性,最適化目標におけるクリッピング閾値が示唆された。
論文 参考訳(メタデータ) (2025-11-08T12:50:41Z) - ASPO: Asymmetric Importance Sampling Policy Optimization [31.38346888572171]
ポジティブアドバンテージトークンのImportance Smpling(IS)比は不一致であり、正および負のトークンに対するアンバランストークン重み付けにつながる。
このミスマッチは、既に高確率のトークンを過剰に増幅しながら、低確率トークンの更新を抑制する。
我々は,IS比の正アドバンテージトークンを反転させるシンプルかつ効果的な戦略を用いた非対称的重要度サンプリングポリシー最適化(ASPO)を提案する。
論文 参考訳(メタデータ) (2025-10-07T15:54:24Z) - Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning [80.87085014818052]
RLVR(Reinforcement Learning with Verifiable Rewards)は,Large Language Models(LLM)の推論能力向上のための強力なアプローチとして登場した。
本研究では,トークンエントロピーパターンの新たな視点からRLVRの先駆的な探索を行う。
トークンのごく一部だけが高いエントロピーを示しており、これらのトークンは様々な推論経路に向けてモデルを操る重要なフォークとして機能する。
論文 参考訳(メタデータ) (2025-06-02T17:54:39Z) - Do Not Let Low-Probability Tokens Over-Dominate in RL for LLMs [25.575582861331405]
低確率トークンは、大きな勾配のマグニチュードのため、モデルの更新に不均等に影響を及ぼす。
我々は2つの新しい手法を提案する: アドバンテージリウェイトと低確率トークン分離(Lopti)
我々のアプローチは、様々な確率でトークン間のバランスの取れた更新を促進し、強化学習の効率を高める。
論文 参考訳(メタデータ) (2025-05-19T10:14:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。