論文の概要: RL Excursions during Pre-Training: Re-examining Policy Optimization for LLM training
- arxiv url: http://arxiv.org/abs/2606.04272v1
- Date: Tue, 02 Jun 2026 22:55:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.414288
- Title: RL Excursions during Pre-Training: Re-examining Policy Optimization for LLM training
- Title(参考訳): プレトレーニング中のRL抽出:LLMトレーニングにおける政策最適化の再検討
- Authors: Rachit Bansal, Clara Mohri, Tian Qin, David Alvarez-Melis, Sham Kakade,
- Abstract要約: RLは非常に早期に有効であることが分かっており、SFT$to$RLパイプラインと早期にマッチすることが多い。
ベースチェックポイントに直接RLを適用すると、モデルの分布が拡大する。
モデル全体の能力は基本的にRLによって変わらず、SFTの後に劣化する。
- 参考スコア(独自算出の注目度): 18.932290080075685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The standard LLM training pipeline applies reinforcement learning (RL) only after pre-training and supervised fine-tuning (SFT). We question this status quo by training a LLM from scratch and applying RL, SFT, and SFT followed by RL directly to intermediate pre-training checkpoints. We find that RL is effective very early, and often matches the full SFT$\to$RL pipeline early as well. Through experiments on harder problems, we find that targeted pre-training data composition is a strong lever for RL effectiveness, even more so than model scale. Beyond reasoning accuracy, applying RL directly to base checkpoints expands the model's distribution; the sharpening effect reported in recent work arises only when RL follows SFT. The general capabilities of the model remain essentially unchanged by RL, while they degrade following SFT. Finally, we merge RL and SFT objectives by parallel averaging, which outperforms across all other training methods discussed, across metrics, while preserving general capabilities. Together, these results suggest that LLM training might benefit from an expanded use of RL.
- Abstract(参考訳): 標準LLMトレーニングパイプラインは、事前トレーニングと教師付き微調整(SFT)後にのみ強化学習(RL)を適用する。
我々は,LSMをスクラッチからトレーニングし,RL,SFT,SFTを適用し,RLを中間学習チェックポイントに直接適用することで,この現状を疑問視する。
RLは非常に早期に有効であることが分かり、SFT$\to$RLパイプラインと早期にマッチすることが多い。
厳密な問題に対する実験により,対象とする事前学習データ構成が,モデルスケールよりもRLの有効性の強いレバーであることが判明した。
推論精度以外にも、ベースチェックポイントに直接RLを適用するとモデルの分布が拡大し、最近の研究で報告されているシャープ化効果はRLがSFTに従うときにのみ発生する。
モデル全体の能力は基本的にRLによって変わらず、SFTの後に劣化する。
最後に、並列平均化によりRLとSFTの目標をマージし、一般的な能力を維持しながら、議論された他のすべてのトレーニング手法よりも優れています。
これらの結果から, LLM トレーニングは RL のさらなる活用の恩恵を受ける可能性が示唆された。
関連論文リスト
- Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning [8.550698116833123]
推論LDMの訓練後は通常、オフラインのSFTステージとオンラインの強化学習ステージで構成される。
同一のRLトレーニングの後、より強力なSFTチェックポイントのモデルの方が、より弱いモデルよりもはるかに性能が低いことを示す。
本稿では、このミスマッチを補正し、RLのモデルを改善するSFT段法であるPEARを提案する。
論文 参考訳(メタデータ) (2026-02-01T06:53:45Z) - Not All Steps are Informative: On the Linearity of LLMs' RLVR Training [14.59942263367421]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)のポストトレーニングの中心的コンポーネントとなっている。
本研究では,将来のモデル状態が外挿による中間チェックポイントから予測可能かどうかを検討する。
Weight Extrapolationは標準RLトレーニングに匹敵する性能のモデルを生成すると同時に,計算量を大幅に削減することを示した。
論文 参考訳(メタデータ) (2026-01-08T03:06:18Z) - On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models [73.10315509190623]
最近の強化学習技術は、言語モデルにおいて顕著な推論改善をもたらした。
ポストトレーニングが、事前トレーニング中に取得したものを超えて、モデルの推論能力を真に拡張するかどうかは不明だ。
プレトレーニング,ミッドトレーニング,およびRLベースのポストトレーニングの因果的貢献を分離する,完全に制御された実験フレームワークを開発した。
論文 参考訳(メタデータ) (2025-12-08T18:12:10Z) - QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs [80.76334908639745]
大規模言語モデル(LLM)のための量子化強化学習フレームワークQeRLを提案する。
QeRLは、NVFP4量子化とローランド適応(LoRA)を組み合わせた問題に対処する。
実験によると、QeRLはロールアウトフェーズで1.5倍以上のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-10-13T17:55:09Z) - Quagmires in SFT-RL Post-Training: When High SFT Scores Mislead and What to Use Instead [20.446287312285648]
我々は,高いSFTスコアがRL後の性能向上に寄与するかどうかを検討した。
高いSFTスコアは、より単純あるいはより均一なデータに偏りがあり、その後のRLゲインやスケールアップ後の学習効果を確実に予測できない。
本稿では,RL結果に対して強力なプロキシを提供するために,代替指標について検討し,ホールドアウト推論例とPass@large kパフォーマンスについて一般化損失を同定する。
論文 参考訳(メタデータ) (2025-10-02T02:57:00Z) - Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。
Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。
複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-23T17:10:40Z) - Reinforcement Learning Meets Large Language Models: A Survey of Advancements and Applications Across the LLM Lifecycle [66.80133103857703]
強化学習(RL)は、大規模言語モデル(LLM)の推論とアライメント性能を著しく向上させた。
本調査は, RL と LLM の交差点における最新の発展とフロンティアの動向を研究者や実践者に提示することを目的としている。
論文 参考訳(メタデータ) (2025-09-20T13:11:28Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Teaching Large Language Models to Reason with Reinforcement Learning [38.17625148525193]
人間のフィードバックからの強化学習(textbfRLHF)は、LLM出力と人間の嗜好を整合させる主要なアプローチとして現れている。
RLHFの成功に触発され,フィードバックから学習する複数のアルゴリズムの性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T16:36:29Z) - RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
本稿では,従来のRLによるタスクごとの学習をMeta-RLに入力するハイブリッドアプローチであるRL$3$を提案する。
RL$3$は、RL$2$よりも長期で累積的な報酬を得られる一方で、メタトレーニング時間を大幅に削減し、アウト・オブ・ディストリビューション・タスクをより一般化することを示す。
論文 参考訳(メタデータ) (2023-06-28T04:16:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。