論文の概要: Pruning Long Chain-of-Thought of Large Reasoning Models via Small-Scale Preference Optimization
- arxiv url: http://arxiv.org/abs/2508.10164v1
- Date: Wed, 13 Aug 2025 20:00:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.105065
- Title: Pruning Long Chain-of-Thought of Large Reasoning Models via Small-Scale Preference Optimization
- Title(参考訳): 小規模選好最適化による大型共振モデルの長期連鎖解析
- Authors: Bin Hong, Jiayu Liu, Zhenya Huang, Kai Zhang, Mengdi Zhang,
- Abstract要約: 大規模推論モデル(LRM)は、長いチェーン・オブ・ソート(CoT)推論を通じて複雑なタスクに強い性能を示す。
長いアウトプットは計算コストを増大させ、過度に考え直し、推論の有効性と効率のバランスをとる上での課題を提起する。
本稿では, LRMの生成時間を削減するための効率的な手法について検討する。
- 参考スコア(独自算出の注目度): 26.462701299259248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Large Reasoning Models (LRMs) have demonstrated strong performance on complex tasks through long Chain-of-Thought (CoT) reasoning. However, their lengthy outputs increase computational costs and may lead to overthinking, raising challenges in balancing reasoning effectiveness and efficiency. Current methods for efficient reasoning often compromise reasoning quality or require extensive resources. This paper investigates efficient methods to reduce the generation length of LRMs. We analyze generation path distributions and filter generated trajectories through difficulty estimation. Subsequently, we analyze the convergence behaviors of the objectives of various preference optimization methods under a Bradley-Terry loss based framework. Based on the analysis, we propose Length Controlled Preference Optimization (LCPO) that directly balances the implicit reward related to NLL loss. LCPO can effectively learn length preference with limited data and training. Extensive experiments demonstrate that our approach significantly reduces the average output length by over 50\% across multiple benchmarks while maintaining the reasoning performance. Our work highlights the potential for computationally efficient approaches in guiding LRMs toward efficient reasoning.
- Abstract(参考訳): 近年のLarge Reasoning Models (LRMs) の進歩は、長いチェーン・オブ・ソート(CoT)推論を通じて複雑なタスクに強い性能を示す。
しかし、長いアウトプットは計算コストを増大させ、再考を招き、推論の有効性と効率のバランスをとる上での課題を提起する。
効率的な推論のための現在の手法は、しばしば推論の品質を損なうか、広範囲のリソースを必要とする。
本稿では, LRMの生成時間を削減するための効率的な手法について検討する。
難易度推定により生成経路分布とフィルタ生成軌跡を解析する。
その後、Bradley-Terry損失に基づくフレームワークを用いて、様々な選好最適化手法の目的の収束挙動を解析した。
そこで本研究では,NLL損失に関する暗黙の報酬を直接バランスするLongth Controlled Preference Optimization (LCPO)を提案する。
LCPOは、限られたデータとトレーニングで、効果的に長さの好みを学習できる。
実験の結果,提案手法は複数のベンチマークにおいて平均出力長を50%以上削減し,推算性能を維持できることがわかった。
本研究は, LRMを効率的な推論へ導く上で, 計算効率のよいアプローチの可能性を強調した。
関連論文リスト
- AALC: Large Language Model Efficient Reasoning via Adaptive Accuracy-Length Control [18.273777938294327]
大きな推論モデル(LRM)は、長いチェーン・オブ・シークレットを生成することで印象的な推論能力を達成する。
我々は、強化学習に組み込まれた軽量で精度の高い長さの報酬であるALCを紹介する。
提案手法は,元の精度を維持したり改善したりしながら,応答長を50%以上削減することを示す。
論文 参考訳(メタデータ) (2025-06-25T06:29:18Z) - Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models [68.96619605651155]
大規模推論モデル(LRM)は、過度に考えることによって出力長を大幅に増加させる可能性がある。
モデル生成推論経路を異なる思考パターンに分割する動的最適化フレームワークを提案する。
提案手法は, 最大12%の精度向上を実現し, トークン使用量を約5,000から3,000に削減する。
論文 参考訳(メタデータ) (2025-05-27T20:59:29Z) - Ada-R1: Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization [86.56120216550232]
適応的で効率的な推論のための新しい2段階のフレームワークを提案する。
まず、長いCoTモデルと短いCoTモデルを組み合わせてハイブリッド推論モデルを構築する。
第二に、モデルに適切な推論スタイルを選択するための2段階の選好訓練を適用する。
論文 参考訳(メタデータ) (2025-04-30T14:01:45Z) - ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning [1.0416697066889342]
そこで本研究では,手動による指導を必要とせずに,推論モデルによる最適なCoT長の学習を可能にする,簡易かつ効果的な強化学習手法を提案する。
ShorterBetterは、ドメイン内およびドメイン外推論タスクの出力長を50%-80%削減する。
我々の推論トレース分析は、不要な反復、過剰な自己検証、代替品の過剰探索を減らし、ショーターベッターが推論トレースの構造を洗練することを示している。
論文 参考訳(メタデータ) (2025-04-30T07:04:19Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。