論文の概要: On-Policy Supervised Fine-Tuning for Efficient Reasoning
- arxiv url: http://arxiv.org/abs/2602.13407v1
- Date: Fri, 13 Feb 2026 19:16:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.019028
- Title: On-Policy Supervised Fine-Tuning for Efficient Reasoning
- Title(参考訳): 効率的な推論のためのオンライン監視ファインチューニング
- Authors: Anhao Zhao, Ziyang Chen, Junlong Tong, Yingqi Fan, Fanghua Ye, Shuhao Li, Yunpu Ma, Wenjie Li, Xiaoyu Shen,
- Abstract要約: 大規模推論モデル(LRM)は、長い連鎖推論を探索するために強化学習(RL)を用いて訓練されることが多い。
近年の手法では, 正確さと簡潔さを両立させるため, マルチリワード目的を付加しているが, これらの複雑な拡張はトレーニングを不安定にし, 準最適トレードオフをもたらすことが多い。
従来の精度を維持しつつ,CoT長を最大80まで短縮する簡易なSFTトレーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 27.67711115864118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large reasoning models (LRMs) are commonly trained with reinforcement learning (RL) to explore long chain-of-thought reasoning, achieving strong performance at high computational cost. Recent methods add multi-reward objectives to jointly optimize correctness and brevity, but these complex extensions often destabilize training and yield suboptimal trade-offs. We revisit this objective and challenge the necessity of such complexity. Through principled analysis, we identify fundamental misalignments in this paradigm: KL regularization loses its intended role when correctness and length are directly verifiable, and group-wise normalization becomes ambiguous under multiple reward signals. By removing these two items and simplifying the reward to a truncation-based length penalty, we show that the optimization problem reduces to supervised fine-tuning on self-generated data filtered for both correctness and conciseness. We term this simplified training strategy on-policy SFT. Despite its simplicity, on-policy SFT consistently defines the accuracy-efficiency Pareto frontier. It reduces CoT length by up to 80 while maintaining original accuracy, surpassing more complex RL-based methods across five benchmarks. Furthermore, it significantly enhances training efficiency, reducing GPU memory usage by 50% and accelerating convergence by 70%. Our code is available at https://github.com/EIT-NLP/On-Policy-SFT.
- Abstract(参考訳): 大規模推論モデル(LRM)は、長い連鎖推論を探索するために強化学習(RL)を用いて訓練され、高い計算コストで高い性能を達成する。
近年の手法では, 正確さと簡潔さを両立させるため, マルチリワード目的を付加しているが, これらの複雑な拡張はトレーニングを不安定にし, 準最適トレードオフをもたらすことが多い。
我々はこの目的を再考し、そのような複雑さの必要性に挑戦する。
KL正規化は、正しさと長さが直接検証可能であるときに意図された役割を失い、グループワイド正規化は複数の報酬信号の下で曖昧になる。
これら2項目を削除し, トラルニケーションに基づく長さのペナルティに対する報酬を簡素化することにより, 最適化問題は, 正確さと簡潔さの両方のためにフィルタされた自己生成データに対する教師付き微調整に還元されることを示す。
我々は、この簡易な政治SFTトレーニング戦略を述べる。
その単純さにもかかわらず、オンラインのSFTは一貫して精度効率のParetoフロンティアを定義している。
元の精度を維持しながら、CoTの長さを最大80まで短縮し、5つのベンチマークでより複雑なRLベースのメソッドを上回ります。
さらに、トレーニング効率を大幅に向上し、GPUメモリ使用量を50%削減し、コンバージェンスを70%向上させる。
私たちのコードはhttps://github.com/EIT-NLP/On-Policy-SFTで利用可能です。
関連論文リスト
- Constraint-Rectified Training for Efficient Chain-of-Thought [60.52883907721588]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
より長い推論トレースは、自己訂正のような回答の品質とアンロック能力を改善することができるが、高い推論コストを発生させ、過度に考えることとして知られる冗長なステップをしばしば導入する。
近年の研究は、推論の長さと精度のバランスをとる効率的な推論戦略の開発を目指している。
論文 参考訳(メタデータ) (2026-02-13T02:13:45Z) - Correct, Concise and Complete: Multi-stage Training For Adaptive Reasoning [11.179446105672461]
教師付き微調整と強化学習を組み合わせた多段階効率的な推論手法を提案する。
提案手法は,8Bモデルでは平均28%,32Bモデルでは40%の応答長を減少させる。
より複雑な最先端の効率的な推論手法に比べて、優れたトレードオフを実現する。
論文 参考訳(メタデータ) (2026-01-06T12:31:51Z) - DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning [134.03095505580276]
Doing Length pEnalty Right (DLER)は、バッチワイド報酬正規化、高いクリッピング、ダイナミックサンプリング、単純なトランケーション長ペナルティを組み合わせたトレーニングレシピである。
DLERは最先端の精度-効率のトレードオフを実現し、出力長を70%以上削減し、以前のベースライン精度をすべて上回っている。
論文 参考訳(メタデータ) (2025-10-16T20:05:57Z) - DRPO: Efficient Reasoning via Decoupled Reward Policy Optimization [37.96314154235252]
本稿では,正しいロールアウトの時間に基づく学習信号を,不正なロールアウトから切り離す新しいフレームワークを提案する。
1.5Bモデルでは,単純な質問に対して1.1%の性能損失しか得られず,77%の長さ削減を実現している。
論文 参考訳(メタデータ) (2025-10-06T04:18:13Z) - Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - Optimizing Length Compression in Large Reasoning Models [22.053435079234816]
大規模な推論モデル(LRM)は、しばしば不要で冗長な推論連鎖を生成する。
冗長性の排除を提唱するBrevityと、批判的推論ステップの保存を保証するSufficiencyという、2つの新しいきめ細かい原則を提案する。
LC-R1は、全体的な簡潔さのためにリワード長(Reward Length)と、思考プロセスの無効部分を取り除くために特別に設計された圧縮リワード(Compress Reward)を組み合わせている。
論文 参考訳(メタデータ) (2025-06-17T17:50:16Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - Stable Reinforcement Learning for Efficient Reasoning [2.838966689544288]
GRPO-$lambda$ は GRPO の効率的で安定な変種である。
正当率を監視して報酬戦略を動的に調整する。
平均精度は1.48%向上し、CoT配列の長さは47.3%削減された。
論文 参考訳(メタデータ) (2025-05-23T16:43:03Z) - Learn to Reason Efficiently with Adaptive Length-based Reward Shaping [23.626013831589212]
大規模共振モデル(LRM)は、強化学習(RL)を通して複雑な問題を解く際、顕著な能力を示した。
本稿では,長さに基づく報酬形成のレンズを用いて,様々な効率的な推論手法を定式化する統一フレームワークを提案する。
DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-32Bの実験により、本手法は推論性能と応答長の効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-05-21T15:03:26Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [51.631483479081645]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。
本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。