論文の概要: Tailored Primitive Initialization is the Secret Key to Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.12429v1
- Date: Sun, 16 Nov 2025 03:12:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.089993
- Title: Tailored Primitive Initialization is the Secret Key to Reinforcement Learning
- Title(参考訳): 卓越した原始初期化は強化学習の秘密鍵である
- Authors: Yihang Yao, Guangtao Zeng, Raina Wu, Yang Zhang, Ding Zhao, Zhang-Wei Hong, Chuang Gan,
- Abstract要約: 強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムとして登場した。
多様な,高品質な推論プリミティブによるLLMの初期化は,安定かつサンプル効率のよいRLトレーニングを実現する上で不可欠である,と我々は主張する。
そこで我々は,新しい推論プリミティブを自動的に発見し,キュレートする微調整パイプラインであるTailorを提案する。
- 参考スコア(独自算出の注目度): 61.29280885291581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has emerged as a powerful paradigm for enhancing the reasoning capabilities of large language models (LLMs). While RL has demonstrated substantial performance gains, it still faces key challenges, including low sampling efficiency and a strong dependence on model initialization: some models achieve rapid improvements with minimal RL steps, while others require significant training data to make progress. In this work, we investigate these challenges through the lens of reasoning token coverage and argue that initializing LLMs with diverse, high-quality reasoning primitives is essential for achieving stable and sample-efficient RL training. We propose Tailor, a finetuning pipeline that automatically discovers and curates novel reasoning primitives, thereby expanding the coverage of reasoning-state distributions before RL. Extensive experiments on mathematical and logical reasoning benchmarks demonstrate that Tailor generates more diverse and higher-quality warm-start data, resulting in higher downstream RL performance.
- Abstract(参考訳): 強化学習(RL)は,大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムとして登場した。
RLは大きなパフォーマンス向上を示しているが、サンプリング効率の低下やモデルの初期化への強い依存など、重要な課題に直面している。
本研究では,これらの課題をトークンカバレッジのレンズを用いて検討し,多種多様で高品質な推論プリミティブによるLCMの初期化は,安定かつサンプル効率のよいRLトレーニングを実現する上で不可欠である,と論じる。
本稿では,新たな推論プリミティブを自動検出し,キュレートする微調整パイプラインであるTailorを提案する。
数学的および論理的推論ベンチマークに関する大規模な実験により、Talorはより多様な、より高品質なウォームスタートデータを生成し、より下流のRLのパフォーマンスが向上することを示した。
関連論文リスト
- Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models [47.05227816684691]
推論モデルの効率的な探索を可能にする新しいPSRLフレームワーク(AttnRL)を提案する。
高い注意点を示すステップが推論行動と相関しているという予備観測により,高い値を持つ位置から分岐することを提案する。
我々は,問題の難易度と過去のバッチサイズを考慮に入れた適応型サンプリング戦略を開発し,トレーニングバッチ全体が非ゼロの利点値を維持することを保証する。
論文 参考訳(メタデータ) (2025-09-30T17:58:34Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - RAST: Reasoning Activation in LLMs via Small-model Transfer [33.32587030836428]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なアプローチとなっている。
大規模にRLを適用することは、潜在的にリソース集約であり、複数のモデルコピーと広範なGPUワークロードを必要とします。
本稿では、RL学習モデルからRL学習モデルからより大規模なモデルにRL誘導確率調整を注入することにより、推論挙動を伝達する簡易かつ効果的なRASTを提案する。
論文 参考訳(メタデータ) (2025-05-30T17:57:08Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。