論文の概要: Reinforcement Learning with Promising Tokens for Large Language Models
- arxiv url: http://arxiv.org/abs/2602.03195v1
- Date: Tue, 03 Feb 2026 07:08:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.299898
- Title: Reinforcement Learning with Promising Tokens for Large Language Models
- Title(参考訳): 大規模言語モデルを用いた強化学習
- Authors: Jing-Cheng Pang, Liang Lu, Xian Tang, Kun Jiang, Sijie Wu, Kai Zhang, Xubin Li,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)の整合と最適化のための重要なパラダイムとして登場した。
本稿では,トークン生成から戦略的意思決定を分離することで行動空間の問題を軽減するフレームワークであるReinforcement Learning with Promising Tokens(R)を紹介する。
- 参考スコア(独自算出の注目度): 11.420715885411925
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement learning (RL) has emerged as a key paradigm for aligning and optimizing large language models (LLMs). Standard approaches treat the LLM as the policy and apply RL directly over the full vocabulary space. However, this formulation includes the massive tail of contextually irrelevant tokens in the action space, which could distract the policy from focusing on decision-making among the truly reasonable tokens. In this work, we verify that valid reasoning paths could inherently concentrate within a low-rank subspace. Based on this insight, we introduce Reinforcement Learning with Promising Tokens (RLPT), a framework that mitigates the action space issue by decoupling strategic decision-making from token generation. Specifically, RLPT leverages the semantic priors of the base model to identify a dynamic set of \emph{promising tokens} and constrains policy optimization exclusively to this refined subset via masking. Theoretical analysis and empirical results demonstrate that RLPT effectively reduces gradient variance, stabilizes the training process, and improves sample efficiency. Experiment results on math, coding, and telecom reasoning show that RLPT outperforms standard RL baselines and integrates effectively across various model sizes (4B and 8B) and RL algorithms (GRPO and DAPO).
- Abstract(参考訳): 強化学習(RL)は,大規模言語モデル(LLM)の整合と最適化のための重要なパラダイムとして登場した。
標準的アプローチは LLM をポリシーとして扱い、完全な語彙空間に RL を直接適用する。
しかし、この定式化は、アクション空間における文脈的に無関係なトークンの膨大な尾を含むため、政策が真に合理的なトークン間の意思決定に焦点を絞ることを妨げる可能性がある。
本研究では,有効推論経路が本質的に低ランク部分空間に集中できることを検証する。
この知見に基づいて,トークン生成から戦略的意思決定を分離することにより,アクション空間の問題を軽減するフレームワークであるReinforcement Learning with Promising Tokens(RLPT)を紹介した。
具体的には、RLPTはベースモデルのセマンティックな前提を利用して、emph{promising tokens} の動的な集合を識別し、マスキングを通じてこの洗練されたサブセットのみにポリシー最適化を制約する。
理論的解析と実験結果から, RLPTは勾配分散を効果的に低減し, 訓練過程を安定化し, 試料効率を向上することが示された。
数学、コーディング、テレコム推論実験の結果、RLPTは標準のRLベースラインより優れており、様々なモデルサイズ(4Bと8B)とRLアルゴリズム(GRPOとDAPO)で効果的に統合されている。
関連論文リスト
- Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - From Supervision to Exploration: What Does Protein Language Model Learn During Reinforcement Learning? [76.288870982181]
タンパク質言語モデル(PLM)は、大規模事前学習と拡張性のあるアーキテクチャを通じて高度な計算タンパク質科学を持つ。
強化学習(RL)は探索を拡大し、タンパク質設計における正確な多目的最適化を可能にした。
RLはサンプリング効率を向上し,さらに重要な点として,教師あり学習で捉えない能力を明らかにするかどうかを問う。
論文 参考訳(メタデータ) (2025-10-02T01:31:10Z) - Learning to Reason as Action Abstractions with Scalable Mid-Training RL [55.24192942739207]
効果的な中間訓練フェーズは、有用なアクションのコンパクトなセットを特定し、高速な選択を可能にする。
本稿では,スケーラブルなミッドトレーニングアルゴリズムであるReasoning as Action Abstractions (RA3)を提案する。
論文 参考訳(メタデータ) (2025-09-30T05:34:20Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Token-Efficient RL for LLM Reasoning [0.02488650627593658]
本稿では,大規模言語モデル (LLM) において,厳密なメモリと計算限界下での推論に適した強化学習戦略を提案する。
ベースラインサブトラクションを用いた早期ポリシー勾配法に基づいて,出力トークンの小さな情報サブセット上で動作する批判のない手法を設計する。
提案手法は,SVAMPベンチマークの精度を46%から70%以上に向上し,マルチ桁乗算において高い性能を示した。
論文 参考訳(メタデータ) (2025-04-29T14:58:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。