論文の概要: SAGE: Shaping Anchors for Guided Exploration in RLVR of LLMs
- arxiv url: http://arxiv.org/abs/2605.18864v1
- Date: Fri, 15 May 2026 07:42:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.748259
- Title: SAGE: Shaping Anchors for Guided Exploration in RLVR of LLMs
- Title(参考訳): SAGE: LLMのRLVRにおけるガイドド探索用アンカー
- Authors: Chanuk Lee, Minki Kang, Sung Ju Hwang,
- Abstract要約: 検証可能な報酬(RLVR)による強化学習は、推論タスクのpass@1を確実に改善するが、pass@kでは同等の利得を得られないことが多い。
中心的な構造的制約は、トレーニングを安定させるが、本質的には基準分布にポリシーを固定する逆-KL正規化から生じる。
我々は,逆KLアンカー分布自体を再構成することで,制御可能な経験的サポート拡張を可能にする,原則化されたフレームワークであるSAGEを提案する。
- 参考スコア(独自算出の注目度): 55.46289074417954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies observe that reinforcement learning with verifiable rewards (RLVR) reliably improves pass@1 on reasoning tasks, yet often fails to yield comparable gains in pass@k, raising the question of whether RLVR genuinely enables large language models to acquire novel reasoning abilities or merely enhances the efficiency of sampling reasoning modes already present in the base model. Prior analyses largely support the latter view, attributing this limitation to structural properties of standard RLVR objectives that result in insufficient exploration pressure. In this work, we argue that a central structural constraint arises from reverse-KL regularization, which stabilizes training but inherently anchors the policy to the reference distribution, thereby suppressing the emergence of alternative reasoning modes. However, we show that neither removing the KL term nor replacing it with forward-KL provides a satisfactory solution, as both disrupt the efficiency-coverage trade-off by either inducing reward hacking or allocating probability mass to off-target regions. To resolve this tension, we propose SAGE, a principled framework that enables controllable empirical support expansion by reshaping the reverse-KL anchor distribution itself through a guide function q(x,y), achieving consistent improvements in both pass@1 and pass@k across challenging mathematical reasoning benchmarks. Our code is available at https://github.com/tally0818/SAGE.
- Abstract(参考訳): 近年の研究では、検証可能な報酬(RLVR)による強化学習は、推論タスクにおいてパス@1を確実に改善するが、パス@kで同等の利得を得られないことが多いため、RLVRは、大規模言語モデルが真に新しい推論能力を獲得できるのか、あるいは、ベースモデルにすでに存在するサンプリング推論モードの効率を単に向上させるのか、という疑問が提起されている。
先行分析は後者の見解を概ね支持しており、この制限は標準RLVR目標の構造的特性に起因し、探査圧力が不足する原因となっている。
本研究では,学習を安定させるが,本来は基準分布にポリシーを固定し,代替的推論モードの出現を抑制する,逆-KL正則化から中心構造制約が生じることを論じる。
しかしながら,KL項を削除したり,フォワードKLに置き換えたりすることは,報奨ハッキングを誘導したり,ターゲット外領域に確率質量を割り当てることによって効率・カバーのトレードオフを妨害するので,満足できる解決法であることを示す。
そこで本研究では,逆KLアンカー分布自体をガイド関数 q(x,y) で再構成し,問題のある数学的推論ベンチマークで Pass@1 と pass@k の整合性向上を実現することにより,制御可能な経験的サポート拡張を実現するためのフレームワーク SAGE を提案する。
私たちのコードはhttps://github.com/tally0818/SAGE.comで公開されています。
関連論文リスト
- Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - Beyond Reasoning Gains: Mitigating General Capabilities Forgetting in Large Reasoning Models [33.214586668992965]
検証可能な報酬(RLVR)による強化学習は、数学的およびマルチモーダル推論において驚くべき成果を上げている。
汎用知識のための動的客観的リウェイトを用いたRECAP-aリプレイ戦略を提案する。
本手法はエンド・ツー・エンドであり,既存のRLVRパイプラインに適用可能である。
論文 参考訳(メタデータ) (2025-10-24T19:08:48Z) - Unlocking Reasoning Capabilities in LLMs via Reinforcement Learning Exploration [8.839121572048018]
より広範に焦点を絞った探索を促進するアルゴリズムであるRAPOを提案する。
8K SimpleRL-Zeroデータセット上で,RAPOを用いてQwen2.5-3Bと7Bモデルをトレーニングする。
その結果,RAPOは一貫して問題解決性能を向上することがわかった。
論文 参考訳(メタデータ) (2025-10-04T16:22:19Z) - The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward [57.56453588632619]
Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。
これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。
我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
論文 参考訳(メタデータ) (2025-09-09T06:34:32Z) - The Invisible Leash: Why RLVR May or May Not Escape Its Origin [47.488691410579925]
RLVRの現在の実践がモデルの推論境界を真に拡張するかどうかは不明である。
現在の訓練条件下では、RLVRはサポート制約付き最適化メカニズムとして動作することができる。
RLVRは精度を確実に向上させるが、探索は徐々に狭くなり、正しく表現されていない解を見落としてしまう可能性がある。
論文 参考訳(メタデータ) (2025-07-20T07:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。