論文の概要: Think Before You Prune: Selective Self-Generated Calibration for Pruning Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2511.18864v1
- Date: Mon, 24 Nov 2025 08:08:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.097728
- Title: Think Before You Prune: Selective Self-Generated Calibration for Pruning Large Reasoning Models
- Title(参考訳): 大規模推論モデルを実行するための選択的な自己生成キャリブレーション
- Authors: Yang Xiang, Yixin Ji, Juntao Li, Min Zhang,
- Abstract要約: キャリブレーションのための自己生成推論データを使用することで,プルーニング性能を大幅に向上できることを示す。
分析の結果,困難かつ適度に長い自己生成推論データが理想的なキャリブレーションデータであることがわかった。
- 参考スコア(独自算出の注目度): 48.973207827896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) have demonstrated remarkable performance on complex reasoning benchmarks. However, their long chain-of-thought reasoning processes incur significant inference overhead. Pruning has emerged as a promising approach to reducing computational costs. However, existing efforts have primarily focused on large language models (LLMs), while pruning LRMs remains unexplored. In this work, we conduct the first empirical study on pruning LRMs and show that directly applying existing pruning techniques fails to yield satisfactory results. Our findings indicate that using self-generated reasoning data for calibration can substantially improve pruning performance. We further investigate how the difficulty and length of reasoning data affect pruning outcomes. Our analysis reveals that challenging and moderately long self-generated reasoning data serve as ideal calibration data. Based on these insights, we propose a Selective Self-Generated Reasoning (SSGR) data construction strategy to provide effective calibration data for pruning LRMs. Experimental results on the DeepSeek-R1-Distill model series validate that our strategy improves the reasoning ability of pruned LRMs by 10%-13% compared to general pruning methods.
- Abstract(参考訳): 大規模推論モデル (LRM) は複雑な推論ベンチマークにおいて顕著な性能を示した。
しかし、彼らの長い連鎖推論プロセスは、かなりの推論オーバーヘッドを引き起こす。
計算コストを削減するための有望なアプローチとしてプルーニングが登場した。
しかし、既存の取り組みは大きな言語モデル(LLM)に重点を置いている。
本研究は, 刈り込みLEMの実証実験を行い, 既存の刈り込み技術を直接適用しても良好な結果が得られないことを示す。
その結果, キャリブレーションのための自己生成推論データを用いることで, プルーニング性能が著しく向上することが示唆された。
さらに、推論データの難易度と長さが刈り取り結果にどう影響するかを考察する。
分析の結果,困難かつ適度に長い自己生成推論データが理想的なキャリブレーションデータであることがわかった。
これらの知見に基づいて,選択的自己生成推論(SSGR)データ構築手法を提案する。
DeepSeek-R1-Distill モデルシリーズの実験結果から,本手法は一般的な刈り込み法に比べて10%-13%向上することがわかった。
関連論文リスト
- Efficient Reasoning via Reward Model [24.105621725286497]
検証可能な報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)の推論能力を高めることが示されている。
DeepSeek-R1 や OpenAI o1 のような LRM は、過剰または無関係な推論ステップを含む冗長な応答をしばしば生成する。
本稿では,結果報酬と簡潔度スコアとの間に明確な依存性を有する,CRF(Conciseness Reward Function)という新たな報酬定式化を導入する。
論文 参考訳(メタデータ) (2025-11-12T09:51:07Z) - LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling [39.61818305829112]
PIR(Perplexity-based Importance Refinement)は,各推論ステップの重要性を定量的に評価するフレームワークである。
PIRは、プログレッシブ推論コンポーネントを保持しながら、低重要機能ステップのみを特定し、選択的にプーンする。
我々のアプローチは、異なるモデルサイズ、データソース、トークン予算にまたがる強力な一般化可能性を示す。
論文 参考訳(メタデータ) (2025-05-25T15:17:57Z) - Beyond the First Error: Process Reward Models for Reflective Mathematical Reasoning [49.21525229904197]
本研究では,長いCoT推論プロセスのスコアリングに特化して設計されたPRMのための新しいデータアノテーション手法を提案する。
本稿では, 誤り伝播と誤認識の概念を導入し, PRMの効果的な自己訂正行動と誤ったステップに基づく推論の両方を識別する能力を高めた。
我々のPRMは,探索誘導,BoN,F1スコアなど,様々な指標で優れた性能を実現している。
論文 参考訳(メタデータ) (2025-05-20T14:12:05Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - Sample-aware Adaptive Structured Pruning for Large Language Models [14.605017410864583]
本研究では,大規模言語モデル(LLM)のためのサンプル対応型構造化プルーニングフレームワークであるAdaPrunerを紹介する。
特に、AdaPrunerは構造化プルーニング解空間を構築して、LLMから冗長パラメータを効果的に除去する。
20%のプルーニング比で、AdaPrunerでプルーニングされたモデルは、未プルーニングモデルのパフォーマンスの97%を維持している。
論文 参考訳(メタデータ) (2025-03-08T12:00:21Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。