論文の概要: SFT-then-RL Outperforms Mixed-Policy Methods for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2604.23747v1
- Date: Sun, 26 Apr 2026 14:53:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.531256
- Title: SFT-then-RL Outperforms Mixed-Policy Methods for LLM Reasoning
- Title(参考訳): SFT-then-RLによるLLM共振用混合ポリシング法の性能評価
- Authors: Alexis Limozin, Eduard Durech, Torsten Hoefler, Imanol Schlag, Valentina Pyatkin,
- Abstract要約: DeepSpeedのCPUオフロードバグは、勾配の蓄積中に静かに中間のマイクロバッチをドロップする。
OpenRLHFの損失集約バグは、ミスマッチ当たりの損失を誤って重み付けする。
わずか50RLの切り離された変種は、FLOPを減らしながら、数学ベンチマークで混合ポリシー法より優れている。
- 参考スコア(独自算出の注目度): 28.61073266521457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent mixed-policy optimization methods for LLM reasoning that interleave or blend supervised and reinforcement learning signals report improvements over the standard SFT-then-RL pipeline. We show that numerous recently published research papers rely on a faulty baseline caused by two distinct bugs: a CPU-offloaded optimizer bug in DeepSpeed that silently drops intermediate micro-batches during gradient accumulation (affecting multiple downstream frameworks including TRL, OpenRLHF and Llama-Factory), and a loss aggregation bug in OpenRLHF that incorrectly weights per-mini-batch losses. Together they suppress SFT performance, with the optimizer bug accounting for most of the gap and the loss aggregation bug contributing a smaller additional effect. Once corrected, the standard SFT-then-RL pipeline surpasses every published mixed-policy method we evaluate by +3.8 points on math benchmarks with Qwen2.5-Math-7B and by +22.2 points with Llama-3.1-8B. Even a truncated variant with just 50 RL steps outperforms mixed-policy methods on math benchmarks while using fewer FLOPs.
- Abstract(参考訳): 従来のSFT-then-RLパイプラインのインターリーブ, ブレンド, 強化学習信号を用いたLCM推論の混合政治最適化手法について報告する。
最近発表された多くの研究論文は、2つの異なるバグによって引き起こされる欠陥ベースラインに依存していることを示している。DeepSpeedのCPUオフロードオプティマイザバグは、勾配の蓄積中に静かに中間マイクロバッチをドロップする(TRL、OpenRLHF、Llama-Factoryなどの下流フレームワークに影響する)。
それらはSFTのパフォーマンスを抑え、オプティマイザのバグはギャップの大部分を占め、ロスアグリゲーションのバグはより小さな効果をもたらす。
正しければ、標準のSFT-then-RLパイプラインは、Qwen2.5-Math-7Bのベンチマークで+3.8ポイント、Llama-3.1-8Bの+22.2ポイントの評価で、全ての混合ポリシー法を上回ります。
50RLのステップしか持たない切り捨て型でさえ、FLOPを減らしながら、数学ベンチマークで混合政治手法よりも優れている。
関連論文リスト
- A Further Efficient Algorithm with Best-of-Both-Worlds Guarantees for $m$-Set Semi-Bandit Problem [11.27658240767421]
本稿では,$m$セット半帯域問題におけるFollow-the-Perturbed-Leader(FTPL)ポリシーの最適性と複雑性について検討する。
Fréchetと特定のパラメータを持つ分布を持つFTPLは、逆向きの設定で$O(sqrtmdT)$を最善に後悔することを示す。
また,条件付き幾何再サンプリングを$m$セットの半帯域に拡張し,FTPLの効率よく損失推定を行う。
論文 参考訳(メタデータ) (2026-03-12T10:11:50Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - How to Train Your LLM Web Agent: A Statistical Diagnosis [96.86317871461834]
LLMウェブエージェントのポストトレーニングにおける計算割当に関する統計学的基礎研究について述べる。
提案手法では,Llama 3.1 8Bの学生を対象に,教師付き微調整(SFT)とオンライン強化学習を用いて,Llama 3.3 70Bの教師を模倣する2段階のパイプラインを用いた。
以上の結果から,SFTとオンラインRLの組み合わせは,WorkArenaとMiniWob++のいずれにおいても,単独でのアプローチよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-07-05T17:12:33Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - On the Power of Perturbation under Sampling in Solving Extensive-Form Games [56.013335390600524]
本研究では, サンプリング対象の広義ゲームにおいて, 摂動がいかにしてFTRL(Follow-the-Regularized-Leader)アルゴリズムを改良するかを検討する。
我々は、textitPerturbed FTRLアルゴリズムの統一フレームワークを提案し、PFTRL-KLとPFTRL-RKLの2つの変種について検討する。
論文 参考訳(メタデータ) (2025-01-28T00:29:38Z) - A Comprehensive Evaluation of Parameter-Efficient Fine-Tuning on Code Smell Detection [11.9757082688031]
コードの臭いは、ソフトウェアシステムの品質に悪影響を及ぼす、最適でないコーディングプラクティスです。
既存の検出手法は、コードまたは機械学習(ML)とディープラーニング(DL)技術に依存しており、しばしば不満足なパフォーマンスのような制限に直面している。
本研究では,Small (SLMs) とLarge Language Models (LLMs) を用いて, 4種類のコードの臭いを検知するための最先端PEFT法について検討した。
論文 参考訳(メタデータ) (2024-12-18T12:48:36Z) - PLReMix: Combating Noisy Labels with Pseudo-Label Relaxed Contrastive Representation Learning [7.556169113399857]
Pseudo-Label Relaxed (PLR) のコントラスト損失を導入することで、エンドツーエンドの textbfPLReMix フレームワークを提案する。
提案したPLR損失はプラガブルであり,他のLNL手法に統合し,その性能改善を観察した。
論文 参考訳(メタデータ) (2024-02-27T15:22:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。