論文の概要: DRP: Distilled Reasoning Pruning with Skill-aware Step Decomposition for Efficient Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2505.13975v1
- Date: Tue, 20 May 2025 06:15:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.781178
- Title: DRP: Distilled Reasoning Pruning with Skill-aware Step Decomposition for Efficient Large Reasoning Models
- Title(参考訳): DRP:高効率大共振モデルのためのスキル認識ステップ分解による蒸留共振法
- Authors: Yuxuan Jiang, Dawei Li, Frank Ferraro,
- Abstract要約: 推定時間とチューニングに基づく蒸留を組み合わせたハイブリッドフレームワークであるDistilled Reasoning Pruning(トレース)を提案する。
トレースでトレーニングされたモデルは、精度を犠牲にすることなく、トークン効率を大幅に改善することを発見した。
さらに分析した結果,CoTの推論構造と学生の推論能力の整合性は,効果的な知識伝達と性能向上に不可欠であることが示唆された。
- 参考スコア(独自算出の注目度): 2.9828816765661363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Reasoning Models (LRMs) have demonstrated success in complex reasoning tasks through long chain-of-thought (CoT) reasoning, their inference often involves excessively verbose reasoning traces, resulting in substantial inefficiency. To address this, we propose Distilled Reasoning Pruning (DRP), a hybrid framework that combines inference-time pruning with tuning-based distillation, two widely used strategies for efficient reasoning. DRP uses a teacher model to perform skill-aware step decomposition and content pruning, and then distills the pruned reasoning paths into a student model, enabling it to reason both efficiently and accurately. Across several challenging mathematical reasoning datasets, we find that models trained with DRP achieve substantial improvements in token efficiency without sacrificing accuracy. Specifically, DRP reduces average token usage on GSM8K from 917 to 328 while improving accuracy from 91.7% to 94.1%, and achieves a 43% token reduction on AIME with no performance drop. Further analysis shows that aligning the reasoning structure of training CoTs with the student's reasoning capacity is critical for effective knowledge transfer and performance gains.
- Abstract(参考訳): 大規模推論モデル(LRM)は、長いチェーン・オブ・シークレット(CoT)推論を通して複雑な推論タスクを成功させたが、その推論はしばしば過度に冗長な推論トレースを伴い、結果としてかなりの非効率性をもたらす。
そこで本研究では, 推論時間プルーニングとチューニングに基づく蒸留を組み合わせたハイブリッドフレームワークであるDistilled Reasoning Pruning (DRP)を提案する。
DRPは、教師モデルを使用して、スキル対応のステップ分解とコンテンツプルーニングを実行し、そのプルーニングされた推論パスを学生モデルに蒸留することで、両方を効率的かつ正確に推論することができる。
いくつかの難解な数学的推論データセットの中で, DRPで訓練されたモデルは, 精度を犠牲にすることなく, トークン効率を大幅に向上することがわかった。
具体的には、DRPはGSM8Kの平均トークン使用量を917から328に削減し、精度を91.7%から94.1%に改善し、性能低下のないAIMEでは43%のトークン使用量を達成している。
さらに分析した結果,CoTの推論構造と学生の推論能力の整合性は,効果的な知識伝達と性能向上に不可欠であることが示唆された。
関連論文リスト
- SelfBudgeter: Adaptive Token Allocation for Efficient LLM Reasoning [29.64638547097158]
SelfBudgeterは、効率的な推論のための自己適応的な制御可能な推論戦略である。
提案手法は, 出力長を削減しつつ, 精度を効果的に維持できる強化学習用GPROを提案する。
実験の結果、自己予算は問題複雑さに応じて合理的に予算を割り当てることができることが示された。
論文 参考訳(メタデータ) (2025-05-16T14:08:04Z) - TwT: Thinking without Tokens by Habitual Reasoning Distillation with Multi-Teachers' Guidance [42.8895384120507]
多教師指導による常習的推論蒸留による推論時間コスト削減手法TwTを提案する。
提案手法は,教師指導型圧縮戦略により,モデルの習慣行動に対する明確な推論を内包する。
実験により,TwTは優れた性能を維持しつつ,推論コストを効果的に低減できることが示された。
論文 参考訳(メタデータ) (2025-03-31T15:16:31Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - The Surprising Effectiveness of Test-Time Training for Few-Shot Learning [59.309477460893916]
言語モデル(LM)は、トレーニングディストリビューション内のタスクにおいて印象的なパフォーマンスを示しているが、しばしば構造的に新しいタスクで苦労している。
LMの推論と少数ショット学習能力を改善するメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
本研究は,新しいタスクにおける文脈内学習の限界を強調し,言語モデルの適応性を高めるためのテストタイムトレーニングの可能性を示した。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - The Role of Deductive and Inductive Reasoning in Large Language Models [37.430396755248104]
本稿では,大規模言語モデル(LLM)推論を強化するために,DID法を提案する。
DIDはリトルストーン次元と情報エントロピーを組み合わせた2次元複雑度評価システムを実装している。
その結果,推理精度と解の精度は有意に向上した。
論文 参考訳(メタデータ) (2024-10-03T18:30:47Z) - Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。
論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-02-01T15:18:33Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。