論文の概要: Nudging Beyond the Comfort Zone: Efficient Strategy-Guided Exploration for RLVR
- arxiv url: http://arxiv.org/abs/2605.15726v1
- Date: Fri, 15 May 2026 08:22:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.219299
- Title: Nudging Beyond the Comfort Zone: Efficient Strategy-Guided Exploration for RLVR
- Title(参考訳): 快適ゾーンを超えて育つ:RLVRの効率的な戦略ガイドによる探索
- Authors: Chanuk Lee, Sangwoo Park, Minki Kang, Sung Ju Hwang,
- Abstract要約: 検証可能な報酬付き強化学習(RLVR)は、大規模言語モデルの推論能力を改善するためのスケーラブルなパラダイムとして登場した。
我々は、RLVRにおける構造化及び多様性駆動探索のためのフレームワークであるNudgeRLを提案する。
当社のアプローチでは,各ロールアウトを,軽量で戦略レベルのコンテキストに設定するストラテジーナッジを導入しています。
- 参考スコア(独自算出の注目度): 53.27792011950384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has emerged as a scalable paradigm for improving the reasoning capabilities of large language models. However, its effectiveness is fundamentally limited by exploration: the policy can only improve on trajectories it has already sampled. While increasing the number of rollouts alleviates this issue, such brute-force scaling is computationally expensive, and existing approaches that modify the optimization objective provide limited control over what is explored. In this work, we propose NudgeRL, a framework for structured and diversity-driven exploration in RLVR. Our approach introduces Strategy Nudging, which conditions each rollout on lightweight, strategy-level contexts to induce diverse reasoning trajectories without relying on expensive oracle supervision. To effectively learn from such structured exploration, we further propose a unified objective, which decomposes the reward signal into inter- and intra-context components and incorporates a distillation objective to transfer discovered behaviors back to the base policy. Empirically, NudgeRL outperforms standard GRPO with up to 8 times larger rollout budgets, while outperforming oracle-guided RL baseline on average across five challenging math benchmarks. These results demonstrate that structured, context-driven exploration can serve as an efficient and scalable alternative to both brute-force rollout scaling and feasibility-oriented methods based on privileged information. Our code is available at https://github.com/tally0818/NudgeRL.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は、大規模言語モデルの推論能力を改善するためのスケーラブルなパラダイムとして登場した。
しかし、その効果は基本的に探索によって制限されており、この方針は既にサンプリング済みの軌道でしか改善できない。
ロールアウトの数を増やすことでこの問題が軽減される一方で、このようなブルートフォーススケーリングは計算コストが高く、最適化目標を変更する既存のアプローチは、探索対象に対して限定的な制御を提供する。
本研究では,RLVRにおける構造化及び多様性駆動探索のためのフレームワークであるNudgeRLを提案する。
当社のアプローチでは,軽量かつ戦略レベルのコンテキストにそれぞれロールアウトして,高価なオラクル管理に頼ることなく,多様な推論軌道を誘導するストラテジー・ナッジを導入している。
このような構造的探索から効果的に学習するために,我々はさらに,報酬信号をテキスト内コンポーネントとコンテキスト内コンポーネントに分解し,蒸留目標を組み込んで,発見した振る舞いを基本方針に戻す,統一的な目的を提案する。
経験的に、NudgeRLはGRPOを最大8倍のロールアウト予算で上回り、一方、オラクル誘導のRLベースラインは5つの挑戦的なベンチマークで平均で上回ります。
これらの結果は、構造化されたコンテキスト駆動の探索が、ブルートフォースのロールアウトスケーリングと特権情報に基づく実現可能性指向の手法の両方に、効率的でスケーラブルな代替手段として機能することを示す。
私たちのコードはhttps://github.com/tally0818/NudgeRL.comで利用可能です。
関連論文リスト
- Poly-EPO: Training Exploratory Reasoning Models [62.82992914206963]
本稿では,学習後言語モデル(LM)の枠組みについて,楽観的な探索を明示的に奨励し,探索と搾取の相乗効果を促進する。
本稿では,この枠組みを探索と利用を明確に相乗化するための目的として,ポリクロミック探索政策最適化(Poly-EPO)を提案する。
論文 参考訳(メタデータ) (2026-04-19T22:54:19Z) - CoBA-RL: Capability-Oriented Budget Allocation for Reinforcement Learning in LLMs [31.371566320424552]
CoBA-RLは、モデルの進化能力に基づいて、ロールアウト予算を適応的に割り当てるように設計された強化学習アルゴリズムである。
我々のアプローチは、探索と搾取の間のトレードオフを効果的に編成し、一貫した一般化の改善を提供する。
論文 参考訳(メタデータ) (2026-02-03T03:14:36Z) - Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation [56.92367609590823]
Long Chain-of-Thought (Long CoT)推論は、Large Language Models (LLMs)において有望であることを示している。
我々はLong CoTが本質的にシーケンシャルなレコメンデーションドメインに不適合であると主張している。
提案するRISER(Reinforced Item Space Exploration framework for Recommendation)を提案する。
論文 参考訳(メタデータ) (2026-01-31T10:02:43Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [111.1749164063616]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - EFRame: Deeper Reasoning via Exploration-Filter-Replay Reinforcement Learning Framework [10.632701939913007]
グループ相対政策最適化(GRPO)は効率を向上するが、探索や訓練の不安定さに悩まされる。
GRPOを3次元に拡張するExploration-Filter-ReplayフレームワークであるEFRameを紹介する。
この統合されたフレームワークは、探索、効率、安定性のバランスをとる、原則化されたトレーニングサイクルを確立します。
論文 参考訳(メタデータ) (2025-06-27T13:09:05Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。