論文の概要: Stabilizing Knowledge, Promoting Reasoning: Dual-Token Constraints for RLVR
- arxiv url: http://arxiv.org/abs/2507.15778v1
- Date: Mon, 21 Jul 2025 16:34:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.48716
- Title: Stabilizing Knowledge, Promoting Reasoning: Dual-Token Constraints for RLVR
- Title(参考訳): 知識の安定化と推論の促進:RLVRのためのデュアルトークン制約
- Authors: Jiakang Wang, Runze Liu, Fuzheng Zhang, Xiu Li, Guorui Zhou,
- Abstract要約: 本稿では,マルチトークン制約と同期更新を備えたエントロピー対応RLVRアプローチであるArcherを提案する。
いくつかの数学的推論およびコード生成ベンチマークの実験結果から,本手法が従来のRLVR法よりも大幅に優れていることが示された。
- 参考スコア(独自算出の注目度): 28.888781530351395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has become an effective post-training method for improving the reasoning abilities of Large Language Models (LLMs), mainly by shaping higher-order behaviors such as reflection and planning. However, previous RLVR algorithms often apply uniform training signals to all tokens, without considering the different roles of low-entropy knowledge-related tokens and high-entropy reasoning-related tokens. Some recent methods try to separate these token types by gradient masking or asynchronous updates, but these approaches may break semantic dependencies in the model output and hinder effective learning. In this work, we propose Archer, an entropy-aware RLVR approach with dual-token constraints and synchronous updates. Specifically, our method applies weaker KL regularization and higher clipping thresholds to reasoning tokens to encourage exploration, while using stronger constraints on knowledge tokens to maintain factual knowledge. Experimental results on several mathematical reasoning and code generation benchmarks show that our approach significantly outperforms previous RLVR methods, reaching or exceeding state-of-the-art performance among models of comparable size. The code is available at https://github.com/wizard-III/ArcherCodeR.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) は、主にリフレクションや計画のような高次行動を形成することで、大規模言語モデル(LLM)の推論能力を向上させる効果的なポストトレーニング手法となっている。
しかし、従来のRLVRアルゴリズムは、低エントロピー知識関連トークンと高エントロピー推論関連トークンの異なる役割を考慮せずに、全てのトークンに均一なトレーニング信号を適用することが多い。
最近の手法では、これらのトークンタイプを勾配マスキングや非同期更新によって分離しようと試みているが、これらのアプローチはモデルの出力におけるセマンティックな依存関係を損なう可能性があり、効果的な学習を妨げる可能性がある。
本稿では,マルチトークン制約と同期更新を備えたエントロピー対応RLVRアプローチであるArcherを提案する。
具体的には,KL正則化の弱さとクリッピングしきい値の高精細化を,探索を促進するためにトークンの推論に適用し,知識トークンに強い制約を適用して事実知識を維持する。
いくつかの数学的推論およびコード生成ベンチマークによる実験結果から、我々の手法は従来のRLVR手法よりも大幅に優れており、同等の大きさのモデルで最先端の性能に達するか超えていることがわかった。
コードはhttps://github.com/wizard-III/ArcherCodeR.comで公開されている。
関連論文リスト
- DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。
本研究は,それらの認知過程と強化学習手法について考察する。
我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文 参考訳(メタデータ) (2025-06-25T17:35:47Z) - VerIF: Verification Engineering for Reinforcement Learning in Instruction Following [55.60192044049083]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)の強化の鍵となる技術となっている。
ルールベースのコード検証とLLMベースの大規模な推論モデルによる検証を組み合わせた検証手法であるVerIFを提案する。
我々はVerIFを用いたRLトレーニングを2つのモデルに適用し、いくつかの代表的な命令追従ベンチマークで大幅に改善した。
論文 参考訳(メタデータ) (2025-06-11T17:10:36Z) - Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning [80.87085014818052]
RLVR(Reinforcement Learning with Verifiable Rewards)は,Large Language Models(LLM)の推論能力向上のための強力なアプローチとして登場した。
本研究では,トークンエントロピーパターンの新たな視点からRLVRの先駆的な探索を行う。
トークンのごく一部だけが高いエントロピーを示しており、これらのトークンは様々な推論経路に向けてモデルを操る重要なフォークとして機能する。
論文 参考訳(メタデータ) (2025-06-02T17:54:39Z) - Reinforced Latent Reasoning for LLM-based Recommendation [83.18146814163308]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z) - LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding [30.630803933771865]
実験により,提案手法が投機的復号化よりも大幅に高速化されたことを示す。
LANTERNは、greedyデコーディングやランダムサンプリングと比較して、$mathbf1.75times$と$mathbf1.82times$のスピードアップを増大させる。
論文 参考訳(メタデータ) (2024-10-04T12:21:03Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - LSTSVR-PI: Least square twin support vector regression with privileged
information [0.0]
特権情報を用いた最小二乗支援ベクトル回帰(LSTSVR-PI)を提案する。
これはLUPIパラダイムを統合し、最小二乗サポートベクトル回帰に追加の情報ソースを利用する。
提案モデルは,LUPIの現代パラダイムと古典的LSTSVRのギャップを埋める。
論文 参考訳(メタデータ) (2023-12-05T09:15:10Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。