論文の概要: Not all tokens are needed(NAT): token efficient reinforcement learning
- arxiv url: http://arxiv.org/abs/2603.06619v1
- Date: Fri, 20 Feb 2026 21:16:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.444294
- Title: Not all tokens are needed(NAT): token efficient reinforcement learning
- Title(参考訳): すべてのトークンが必要なわけではない(NAT):トークン効率強化学習
- Authors: Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang,
- Abstract要約: Not All Tokens Are Needed (NAT)はトークン予算を一級最適化プリミティブにする統一フレームワークです。
NATは、完全なシーケンス強化学習の学習信号を保存しながら、生成されたトークンの選ばれたサブセットのみを使用してポリシーを更新する。
我々の実験では、RPCはQwen3-8Bで18%のピークGPUメモリと29%の前方および後方RLトレーニング時間を節約します。
- 参考スコア(独自算出の注目度): 17.384089089363382
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has become a key driver of progress in large language models, but scaling RL to long chain-of-thought (CoT) trajectories is increasingly constrained by backpropagation over every generated token. Even with optimized rollout engines, full-token updates can consume a large fraction of total training cost, turning token length into a hidden tax on RL. We introduce Not All Tokens Are Needed (NAT), a unified framework that makes the token budget a first-class optimization primitive. NAT updates the policy using only a selected subset of generated tokens while preserving the learning signal of full-sequence RL. The core idea is an unbiased partial-token policy-gradient estimator via Horvitz-Thompson reweighting, which ensures statistically correct gradients despite subsampling. We instantiate NAT with two simple, plug-and-play token selection schemes: Uniform Random Sampling (URS) and Random Prefix Cutting (RPC), both of which reduce forward and backward compute and memory without modifying the reward computation or rollout pipeline. Across mathematical reasoning benchmarks, NAT matches full-token GRPO performance while using as few as 50% of tokens, providing an efficient and orthogonal pathway to scaling RL beyond the limits imposed by long trajectories. In our experiments, RPC saves 18% peak GPU memory and 29% forward and backward RL training time for Qwen3-8B.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、大規模言語モデルの進歩の鍵となっているが、RLを長いチェーン・オブ・シークレット(CoT)軌道に拡張することは、生成されたトークンのバックプロパゲーションによってますます制限される。
最適化されたロールアウトエンジンであっても、完全なアップデートはトレーニングコストのかなりの部分を消費し、トークンの長さをRLに隠された税金に変換することができる。
Not All Tokens Are Needed (NAT)はトークン予算を一級最適化プリミティブにする統一フレームワークです。
NATは、フルシーケンスRLの学習信号を保持しながら、生成されたトークンの選ばれたサブセットのみを使用してポリシーを更新する。
中心となる考え方は、Horvitz-Thompson再重み付けによる偏見のない政策段階的推定器であり、サブサンプリングにもかかわらず統計的に正しい勾配を保証する。
均一ランダムサンプリング (URS) とランダムプリフィックスカット (RPC) の2つの単純なトークン選択スキームでNATをインスタンス化し、それぞれが報酬計算やロールアウトパイプラインを変更することなく、前方および後方の計算とメモリを削減する。
数学的推論ベンチマーク全体にわたって、NATはトークンの50%しか使用せず、完全なGRPO性能と一致し、長い軌跡によって課される限界を超えてRLをスケーリングするための効率的で直交的な経路を提供する。
我々の実験では、RPCはQwen3-8Bで18%のピークGPUメモリと29%の前方および後方RLトレーニング時間を節約します。
関連論文リスト
- Reinforcement Learning with Promising Tokens for Large Language Models [11.420715885411925]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)の整合と最適化のための重要なパラダイムとして登場した。
本稿では,トークン生成から戦略的意思決定を分離することで行動空間の問題を軽減するフレームワークであるReinforcement Learning with Promising Tokens(R)を紹介する。
論文 参考訳(メタデータ) (2026-02-03T07:08:06Z) - Lightweight Latent Reasoning for Narrative Tasks [89.94576985780549]
大規模言語モデル(LLM)は、思考の長い連鎖や「推論トレース」を生成することで複雑なタスクに取り組む
本稿では,LiteReasonを提案する。LiteReasonは,標準的なトークンサンプリングとインターリーブすることができ,強化学習と簡単に組み合わせることができる。
LiteReasonは軽量なReasoning Projectorモジュールを使用しており、モデル'スキップ'推論ステップに役立つ持続的な遅延トークンを生成するように訓練されている。
論文 参考訳(メタデータ) (2025-12-01T22:07:32Z) - Beat the long tail: Distribution-Aware Speculative Decoding for RL Training [75.75462952580796]
モデル出力を変更することなくRLロールアウトを高速化する分散Aware Speculativeデコーディングフレームワークを提案する。
数学とコード推論タスクの実験は、DASが同一のトレーニング曲線を保ちながらロールアウト時間を最大50%短縮することを示している。
論文 参考訳(メタデータ) (2025-11-17T19:02:12Z) - From Supervision to Exploration: What Does Protein Language Model Learn During Reinforcement Learning? [76.288870982181]
タンパク質言語モデル(PLM)は、大規模事前学習と拡張性のあるアーキテクチャを通じて高度な計算タンパク質科学を持つ。
強化学習(RL)は探索を拡大し、タンパク質設計における正確な多目的最適化を可能にした。
RLはサンプリング効率を向上し,さらに重要な点として,教師あり学習で捉えない能力を明らかにするかどうかを問う。
論文 参考訳(メタデータ) (2025-10-02T01:31:10Z) - BroRL: Scaling Reinforcement Learning via Broadened Exploration [88.69554867685243]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルにおいて複雑な推論能力を解き放つ鍵となる要素として登場した。
最近のProRLは、トレーニングステップの数を増やすことで、RLのスケーリングを約束している。
RL, BroR-Lineasing the followingary paradigm for scaling RL, BroR-Lincreasing the rollouts per example to hundreds。
論文 参考訳(メタデータ) (2025-10-01T17:59:02Z) - DTRNet: Dynamic Token Routing Network to Reduce Quadratic Costs in Transformers [28.595962720945348]
変換器は多くのタスクにまたがって最先端の結果を得るが、2次自己注意の均一な適用により計算コストがかかる。
改良されたトランスフォーマーアーキテクチャであるDynamic Token Routing Networkを導入し、トークンがクロストークンミキシングの2次コストを動的にスキップできるようにする。
論文 参考訳(メタデータ) (2025-08-31T16:21:21Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - A Practical Sparse Approximation for Real Time Recurrent Learning [38.19296522866088]
Real Time Recurrent Learning (RTRL)は、履歴ストレージの必要性をなくし、オンラインの重み更新を可能にする。
RTRL 影響行列に Sparse n-step Approximation (SnAp) を導入する。
高度にスパースなネットワークでは、n=2のSnApは引き続きトラクタブルであり、更新がオンラインで行われる場合の学習速度において、時間を通してバックプロパゲーションを上回ります。
論文 参考訳(メタデータ) (2020-06-12T14:38:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。