論文の概要: Context Bootstrapped Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.18953v1
- Date: Thu, 19 Mar 2026 14:23:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.195374
- Title: Context Bootstrapped Reinforcement Learning
- Title(参考訳): コンテキストブートストラップによる強化学習
- Authors: Saaket Agashe, Jayanth Srinivasa, Gaowen Liu, Ramana Kompella, Xin Eric Wang,
- Abstract要約: Reinforcement Learning from Verifiable Rewards (RLVR) は、探索の非効率さに悩まされている。
我々は,数発のデモをトレーニングプロンプトに先立ってRLVRトレーニングを増強するContextped Bootstrapped Reinforcement Learning (CBRL)を提案する。
CBRLは、成功率を一貫して改善し、探索効率を向上し、アルゴリズムに依存しない。
- 参考スコア(独自算出の注目度): 51.213972559315486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Verifiable Rewards (RLVR) suffers from exploration inefficiency, where models struggle to generate successful rollouts, resulting in minimal learning signal. This challenge is particularly severe for tasks that require the acquisition of novel reasoning patterns or domain-specific knowledge. To address this, we propose Context Bootstrapped Reinforcement Learning (CBRL), which augments RLVR training by stochastically prepending few-shot demonstrations to training prompts. The injection probability follows a curriculum that starts high to bootstrap early exploration, then anneals to zero so the model must ultimately succeed without assistance. This forces the policy to internalize reasoning patterns from the demonstrations rather than relying on them at test time. We validate CBRL across two model families and five Reasoning Gym tasks. Our results demonstrate that CBRL consistently improves success rate, provides better exploration efficiency, and is algorithm-agnostic. We further demonstrate CBRL's practical applicability on Q, a domain-specific programming language that diverges significantly from mainstream language conventions.
- Abstract(参考訳): RLVR(Reinforcement Learning from Verifiable Rewards)は、モデルがロールアウトを成功させるのに苦労する探索の非効率さに悩まされ、結果として学習信号が最小になる。
この課題は、新しい推論パターンやドメイン固有の知識の獲得を必要とするタスクに対して特に深刻である。
そこで本研究では,数発のプロンプトを確率的に予測してRLVRトレーニングを増強するContext Bootstrapped Reinforcement Learning (CBRL)を提案する。
インジェクション確率は、初期探索をブートストラップするために始まるカリキュラムに従っており、その後0に鎮痛し、結局は援助なしにモデルが成功する必要がある。
これにより、ポリシーは、テスト時にそれらに頼るのではなく、デモから推論パターンを内部化する。
2つのモデルファミリーと5つのReasoning GymタスクにまたがってCBRLを検証する。
以上の結果から,CBRLは連続的に成功率を向上し,探索効率を向上し,アルゴリズムに依存しないことを示す。
さらに、CBRLのQ(ドメイン固有プログラミング言語)への実践的適用性を実証する。
関連論文リスト
- Tailored Primitive Initialization is the Secret Key to Reinforcement Learning [61.29280885291581]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムとして登場した。
多様な,高品質な推論プリミティブによるLLMの初期化は,安定かつサンプル効率のよいRLトレーニングを実現する上で不可欠である,と我々は主張する。
そこで我々は,新しい推論プリミティブを自動的に発見し,キュレートする微調整パイプラインであるTailorを提案する。
論文 参考訳(メタデータ) (2025-11-16T03:12:40Z) - Zero Reinforcement Learning Towards General Domains [27.62364890827269]
検証可能な領域と検証できない領域の両方にわたってモデルの推論能力を向上させるために設計された新しいゼロRLパラダイムを提案する。
検証可能な報酬と生成的報酬モデルを組み合わせることで、両領域をまたいだマルチタスクゼロRLトレーニングを行う。
Qwen3-8B-BaseとQwen3-14B-Baseの実験結果から,本手法が優れた推論性能を実現することを示す。
論文 参考訳(メタデータ) (2025-10-29T13:52:44Z) - Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective [82.24301452333577]
強化学習(RL)は,大規模言語モデル(LLM)推論を改善するための有望なアプローチとして登場した。
重要な課題は、様々な推論領域にまたがる信頼性とスケーラブルなRL報酬信号の欠如である。
我々は,6つの推論領域にまたがる92Kの検証可能な例をキュレートしたRL推論コーパスであるGuruを紹介する。
論文 参考訳(メタデータ) (2025-06-17T20:24:00Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。