論文の概要: From LLMs to LRMs: Rethinking Pruning for Reasoning-Centric Models
- arxiv url: http://arxiv.org/abs/2601.18091v1
- Date: Mon, 26 Jan 2026 03:01:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.630952
- Title: From LLMs to LRMs: Rethinking Pruning for Reasoning-Centric Models
- Title(参考訳): LLMからLRMへ:推論中心モデルにおけるプルーニング再考
- Authors: Longwei Ding, Anhao Zhao, Fanghua Ye, Ziyang Chen, Xiaoyu Shen,
- Abstract要約: 大規模言語モデル(LLM)はデプロイにますますコストがかかり、モデルプルーニングに関する広範な研究を動機付けている。
命令フォロー(textbfLLM-instruct$)モデルと推論強化(textbfLLM-think$)モデルの両方に対するプルーニングの制御的研究を行う。
我々は,分類,生成,推論にまたがる17のタスクに対して,静的深さプルーニング,静的幅プルーニング,動的プルーニングを評価した。
- 参考スコア(独自算出の注目度): 17.998434546981738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly costly to deploy, motivating extensive research on model pruning. However, most existing studies focus on instruction-following LLMs, leaving it unclear whether established pruning strategies transfer to reasoning-augmented models that explicitly generate long intermediate reasoning traces. In this work, we conduct a controlled study of pruning for both instruction-following ($\textbf{LLM-instruct}$) and reasoning-augmented ($\textbf{LLM-think}$) models. To isolate the effects of pruning, we align pruning calibration and post-pruning recovery data with each model's original training distribution, which we show yields more stable and reliable pruning behavior. We evaluate static depth pruning, static width pruning, and dynamic pruning across 17 tasks spanning classification, generation, and reasoning. Our results reveal clear paradigm-dependent differences: depth pruning outperforms width pruning on classification tasks, while width pruning is more robust for generation and reasoning. Moreover, static pruning better preserves reasoning performance, whereas dynamic pruning excels on classification and generation but remains challenging for long-chain reasoning. These findings underscore the need for pruning strategies that explicitly account for the distinct characteristics of reasoning-augmented LLMs. Our code is publicly available at https://github.com/EIT-NLP/LRM-Pruning.
- Abstract(参考訳): 大規模言語モデル(LLM)はデプロイにますますコストがかかり、モデルプルーニングに関する広範な研究を動機付けている。
しかし、既存のほとんどの研究は命令追従 LLM に焦点を当てており、確立されたプルーニング戦略が、長い中間的推論トレースを明示的に生成する推論強化モデルに移行するかどうかは不明である。
本研究では,命令フォロー(\textbf{LLM-instruct}$)モデルと推論強化(\textbf{LLM-think}$)モデルの両方に対するプルーニングの制御的研究を行う。
プルーニングの効果を分離するため, プルーニングキャリブレーションおよび後プルーニング回収データを各モデルの元のトレーニング分布と整合させ, より安定かつ信頼性の高いプルーニング挙動を示す。
我々は,分類,生成,推論にまたがる17のタスクに対して,静的深さプルーニング,静的幅プルーニング,動的プルーニングを評価した。
本研究の結果から, 深度プルーニングは, 分類作業における幅プルーニングよりも優れており, 幅プルーニングは生成と推論においてより堅牢であることがわかった。
さらに、静的プルーニングは推論性能を向上する一方、動的プルーニングは分類と生成に優れるが、長鎖推論では依然として困難である。
これらの知見は, 推理付加LDMの特異な特徴を明示的に説明するプルーニング戦略の必要性を浮き彫りにした。
私たちのコードはhttps://github.com/EIT-NLP/LRM-Pruning.comで公開されています。
関連論文リスト
- Reinforced Efficient Reasoning via Semantically Diverse Exploration [73.41112984160992]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論の強化に有効であることが証明された。
本研究では,LLMのための意味的多様性探索,すなわちROSEによる効率的な推論手法を提案する。
本手法は,意味エントロピーに基づく分岐戦略と$varepsilon$-exploration機構を組み込んだものである。
論文 参考訳(メタデータ) (2026-01-08T15:56:44Z) - Think Before You Prune: Selective Self-Generated Calibration for Pruning Large Reasoning Models [48.973207827896]
キャリブレーションのための自己生成推論データを使用することで,プルーニング性能を大幅に向上できることを示す。
分析の結果,困難かつ適度に長い自己生成推論データが理想的なキャリブレーションデータであることがわかった。
論文 参考訳(メタデータ) (2025-11-24T08:08:19Z) - Breaking Expert Knowledge Limits: Self-Pruning for Large Language Models [21.22854931342453]
大規模言語モデル(LLM)は、広範囲のタスクにおいて顕著なパフォーマンスを達成しており、その巨大なサイズのため、実際のデプロイメントを妨げている。
既存のプルーニング手法は手動設計プルーニングアルゴリズムに大きく依存しているため、テクティファイジの作業コストや専門知識のテクティファイアに繋がる。
筆者らはまず, LLMを活用して, 専門家の知識を使わずに, 自己に最適なプルーニングアルゴリズムを設計することで, 専門家の知識限界を克服する, textbfAutoPrune と呼ばれる新しいプルーニング手法を提案する。
論文 参考訳(メタデータ) (2025-11-19T12:38:21Z) - Can Pruning Improve Reasoning? Revisiting Long-CoT Compression with Capability in Mind for Better Reasoning [15.137717200618454]
Prune-on-LogicはLong-CoTを論理グラフに変換し、低ユーティリティ推論ステップを選択的にプルーするフレームワークである。
検証プルーニングはトークン使用率を低下させながら常に精度を向上するのに対し、推論や非識別プルーニングは性能を低下させる。
論文 参考訳(メタデータ) (2025-05-20T16:38:32Z) - Towards Efficient Automatic Self-Pruning of Large Language Models [55.90119819642064]
トレーニング後の構造化プルーニングは、トレーニングを必要とせずに大規模言語モデルを熟成する有望なソリューションである。
この問題を緩和する鍵は、各レイヤのプルーニング率を正確に決定することにある、と我々は主張する。
我々は、レイヤワイドプルーニングレートを効率的に検索するLLMのためのエンドツーエンドの自動自動プルーニングフレームワークである$textbfSelf-Prunerを紹介した。
論文 参考訳(メタデータ) (2025-02-20T09:59:50Z) - DReSS: Data-driven Regularized Structured Streamlining for Large Language Models [30.47317140878219]
大規模言語モデル(LLM)は、様々な領域で大きな進歩を遂げているが、その規模が大きくなると高い計算とメモリコストがもたらされる。
本稿では,まず正規化,次にプーン,そして最後に微細構造を適用する新しいパラダイムを提案する。
プルーニングされるコンポーネントを正規化するために少量のデータを活用することで、DReSSは、重要な情報をモデルの残りの部分に前もって明示的に転送する。
論文 参考訳(メタデータ) (2025-01-29T14:28:11Z) - Fluctuation-based Adaptive Structured Pruning for Large Language Models [44.217363567065]
FLAP(FLuctuation-based Adaptive Structured Pruning)は、大規模言語モデルのためのトレーニング不要な構造化プルーニングフレームワークである。
ストレージを効果的に削減し、推論速度を向上することで、ハードウェアに優しい。
論文 参考訳(メタデータ) (2023-12-19T09:23:48Z) - Interpretations Steered Network Pruning via Amortized Inferred Saliency
Maps [85.49020931411825]
限られたリソースを持つエッジデバイスにこれらのモデルをデプロイするには、畳み込みニューラルネットワーク(CNN)圧縮が不可欠である。
本稿では,新しい視点からチャネルプルーニング問題に対処するために,モデルの解釈を活用して,プルーニング過程を解析する手法を提案する。
本研究では,実時間スムーズなスムーズなスムーズなスムーズなマスク予測を行うセレクタモデルを導入することで,この問題に対処する。
論文 参考訳(メタデータ) (2022-09-07T01:12:11Z) - Sparse Training via Boosting Pruning Plasticity with Neuroregeneration [79.78184026678659]
本研究では, プラスティック性の観点から, 訓練を通しての刈り込みの効果について検討した。
ゼロコスト神経再生(GraNet)と動的スパーストレーニング(DST)変異(GraNet-ST)を併用した段階的プラニング(gradual pruning)法を考案した。
おそらく最も印象的なのは、ImageNet上のResNet-50との大きなマージンで、さまざまな密集したスパースメソッドに対するスパース・ツー・スパーストレーニングのパフォーマンスを初めて向上させたことだ。
論文 参考訳(メタデータ) (2021-06-19T02:09:25Z) - MLPruning: A Multilevel Structured Pruning Framework for
Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。
我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文 参考訳(メタデータ) (2021-05-30T22:00:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。