論文の概要: Online SFT for LLM Reasoning: Surprising Effectiveness of Self-Tuning without Rewards
- arxiv url: http://arxiv.org/abs/2510.18814v1
- Date: Tue, 21 Oct 2025 17:15:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.019392
- Title: Online SFT for LLM Reasoning: Surprising Effectiveness of Self-Tuning without Rewards
- Title(参考訳): LLM推論のためのオンラインSFT:Rewardsのないセルフチューニングの有効性について
- Authors: Mengqi Li, Lei Zhao, Anthony Man-Cho So, Ruoyu Sun, Xiao Li,
- Abstract要約: LLM推論のための自己ヘルプ型オンライン教師付き微調整(OSFT)パラダイムを提案する。
OSFTは、LLM推論のための非常に効率的なトレーニング戦略である。
我々はOSFTがより複雑で報酬ベースのトレーニングパラダイムに代わる効率的で有望な代替手段を提供すると考えている。
- 参考スコア(独自算出の注目度): 24.382221008037188
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a simple, self-help online supervised finetuning (OSFT) paradigm for LLM reasoning. In this paradigm, the model generates its own responses and is immediately finetuned on this self-generated data. OSFT is a highly efficient training strategy for LLM reasoning, as it is reward-free and uses just one rollout by default. Experiment results show that OSFT achieves downstream performance on challenging mathematical reasoning tasks comparable to strong reinforcement learning with verifiable rewards (RLVR) methods such as GRPO. Our ablation study further demonstrates the efficiency and robustness of OSFT. The major mechanism of OSFT lies in facilitating the model's own existing preference (latent knowledge) learned from pretraining, which leads to reasoning ability improvement. We believe that OSFT offers an efficient and promising alternative to more complex, reward-based training paradigms. Our code is available at https://github.com/ElementQi/OnlineSFT.
- Abstract(参考訳): LLM推論のためのシンプルで自己ヘルプなオンライン教師付き微調整(OSFT)パラダイムを提案する。
このパラダイムでは、モデルは独自の応答を生成し、即座にこの自己生成データに基づいて微調整される。
OSFTは、LLM推論のための非常に効率的なトレーニング戦略である。
実験の結果、OSFTはGRPOのような検証可能な報酬法(RLVR)を用いた強い強化学習に匹敵する、挑戦的な数学的推論タスクにおいて、ダウンストリーム性能を達成することが示された。
我々のアブレーション研究はOSFTの効率性と堅牢性をさらに証明している。
OSFTの主なメカニズムは、事前学習から学んだモデル自身の既存の嗜好(後期知識)を促進させることであり、推論能力の向上につながる。
我々はOSFTがより複雑で報酬ベースのトレーニングパラダイムに代わる効率的で有望な代替手段を提供すると考えている。
私たちのコードはhttps://github.com/ElementQi/OnlineSFT.comで利用可能です。
関連論文リスト
- Beyond Imitation: Recovering Dense Rewards from Demonstrations [64.05543657441218]
教師付き微調整は単純な模倣学習プロセスとして扱われ、データセット上の専門家の振る舞いを模倣するポリシーを訓練するのみである。
我々は、SFTプロセスが政策を学習するだけでなく、専門家のデモンストレーションを説明する暗黙の、密集したトークンレベルの報酬モデルも示している。
Dense-Path ReINFORCEは命令追従ベンチマークにおいて、元のSFTモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2025-10-02T18:58:26Z) - AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance [7.685078284407324]
大規模言語モデル(LLM)は通常、2段階のパイプライン(SFT)と強化学習(RL)による推論タスクのために微調整される。
最近の単段法では、SFTとRLを原理的に統一しようとするが、2つのパラダイムを動的にバランスさせるメカニズムが欠如している。
我々は,SFTの暗黙的,パスレベルの報酬とRLの明示的,結果に基づく報酬との最適バランスを学習する,新しいシングルステージアルゴリズムである textbf Meta Fine-Tuning (AMFT) を紹介する。
論文 参考訳(メタデータ) (2025-08-09T11:40:54Z) - On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification [61.607788999847564]
LLM(Large Language Model)のためのSFT(Supervised Fine-Tuning)の改良法を提案する。
標準SFT勾配は、モデルの一般化能力を著しく制限する問題のある報酬構造を暗黙的に符号化する。
本稿では,このトークンの確率で目的関数を動的に再スケーリングすることにより,各トークンの勾配を安定化する動的微調整(DFT)を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:59:04Z) - Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective [98.45690529036848]
Supervised Fine-Tuning (SFT) や Reinforcement Fine-Tuning (RFT) といったポストトレーニングアルゴリズムは、マルチモーダルな大規模言語モデルを下流タスクに適応するために広く使われている。
タスク適応には有効であるが、以前の知識に対する影響はいまだ不明である。
論文 参考訳(メタデータ) (2025-06-30T04:15:01Z) - Bridging Supervised Learning and Reinforcement Learning in Math Reasoning [55.889740979706815]
強化学習(Reinforcement Learning, RL)は、二分検証信号による自己改善を可能にすることで、近年の数学能力の急上昇において中心的な役割を担っている。
本研究は,LLMが障害を反映し,外部教師なしで自律的に改善できる教師型アプローチである負認識ファインチューニング(NFT)を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:17:40Z) - Refining Salience-Aware Sparse Fine-Tuning Strategies for Language Models [14.68920095399595]
SPEFT(Sparsity-based PEFT)は、モデルの重み行列にトレーニング可能なスパース適応を導入する。
我々は、ゼロコストNASプロキシにインスパイアされたSPEFTのサリエンス指標を初めて体系的に評価した。
静的マスキング戦略と動的マスキング戦略を比較し、トレーニング前にゼロでないエントリを事前に決定する静的マスキングが、パフォーマンスを犠牲にすることなく効率を向上することを示した。
論文 参考訳(メタデータ) (2024-12-18T04:14:35Z) - PAFT: A Parallel Training Paradigm for Effective LLM Fine-Tuning [17.73193523921637]
大規模言語モデル(LLM)は、多様な自然言語処理(NLP)タスクにおいて顕著な能力を示している。
LLMは通常、制御された微調整(SFT)を行い、その後、下流のアプリケーションで使用できるように調整する。
本稿では,PLMファインチューニングのための新しいPArallelトレーニングパラダイムであるPAFTを紹介する。
論文 参考訳(メタデータ) (2024-06-25T20:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。