論文の概要: A Free Lunch in LLM Compression: Revisiting Retraining after Pruning
- arxiv url: http://arxiv.org/abs/2510.14444v1
- Date: Thu, 16 Oct 2025 08:43:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.783156
- Title: A Free Lunch in LLM Compression: Revisiting Retraining after Pruning
- Title(参考訳): LLM圧縮におけるフリーランチ : 刈り込み後のリトレーニング再考
- Authors: Moritz Wagner, Christophe Roux, Max Zimmer, Sebastian Pokutta,
- Abstract要約: 刈り込み後の残りの重量を復元または再訓練する際の鍵となる設計選択について検討する。
特に,各変圧器ブロック内の注意とコンポーネントを別々に再構成することは,最も資源効率が良いが,最も難易度が高い。
以上の結果から,再トレーニングはあらゆるコストで避けるべきという物語に挑戦し,再トレーニング後のパフォーマンス回復に重要な洞察を与えることができた。
- 参考スコア(独自算出の注目度): 23.87950717135044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Neural Network pruning typically requires retraining the model to recover pruning-induced performance degradation, state-of-the-art Large Language Models (LLMs) pruning methods instead solve a layer-wise mask selection and reconstruction problem on a small set of calibration data to avoid full retraining, as it is considered computationally infeasible for LLMs. Reconstructing single matrices in isolation has favorable properties, such as convexity of the objective and significantly reduced memory requirements compared to full retraining. In practice, however, reconstruction is often implemented at coarser granularities, e.g., reconstructing a whole transformer block against its dense activations instead of a single matrix. In this work, we study the key design choices when reconstructing or retraining the remaining weights after pruning. We conduct an extensive computational study on state-of-the-art GPT architectures, and report several surprising findings that challenge common intuitions about retraining after pruning. In particular, we observe a free lunch scenario: reconstructing attention and MLP components separately within each transformer block is nearly the most resource-efficient yet achieves the best perplexity. Most importantly, this Pareto-optimal setup achieves better performance than full retraining, despite requiring only a fraction of the memory. Furthermore, we demonstrate that simple and efficient pruning criteria such as Wanda can outperform much more complex approaches when the reconstruction step is properly executed, highlighting its importance. Our findings challenge the narrative that retraining should be avoided at all costs and provide important insights into post-pruning performance recovery for LLMs.
- Abstract(参考訳): ニューラルネットワークのプルーニングは、プルーニングによる性能劣化を回復するためにモデルの再トレーニングを必要とするのに対し、LLM(Large Language Models)プルーニング手法は、LCMでは計算不可能であるとして、完全なリトレーニングを回避するために、小さなキャリブレーションデータに対して、階層的にマスクの選択と再構成の問題を解く。
単一行列を分離して再構成することは、目的の凸性や完全な再トレーニングに比べてメモリ要求の大幅な削減など、好ましい特性を持つ。
しかし、実際には、リコンストラクタは粗粒度(例えば、変圧器ブロック全体を1つの行列ではなくその密度の高い活性化に対して再構成するなど)で実装されることが多い。
本研究は, 刈り込み後の残存重量を復元あるいは再訓練する際の重要な設計選択について検討する。
我々は、最先端のGPTアーキテクチャに関する広範な計算研究を行い、刈り込み後の再訓練に関する一般的な直観に挑戦するいくつかの驚くべき発見を報告する。
特に,各変圧器ブロック内で注意とMLPコンポーネントを別々に再構成することは,最も資源効率が良いが,最も難易度が高い。
最も重要なことは、このPareto-Optimalセットアップは、メモリのごく一部しか必要とせず、フルリトレーニングよりも優れたパフォーマンスを実現することである。
さらに、Wandaのような単純かつ効率的な刈り取り基準は、再構築ステップが適切に実行されると、より複雑なアプローチよりも優れ、その重要性を強調している。
本研究は,再訓練はあらゆるコストで避けるべきという物語に挑戦し,再訓練後のLCMのパフォーマンス回復に関する重要な知見を提供する。
関連論文リスト
- Don't Be Greedy, Just Relax! Pruning LLMs via Frank-Wolfe [61.68406997155879]
State-of-the-art Large Language Model (LLM) プルーニング手法は階層的に動作し、階層ごとのプルーニングエラーを最小限に抑え、完全な再トレーニングを回避する。
既存の手法は、刈り上げ対象の重量相互作用を無視する欲求凸に依存する。
提案手法は, 層ごとのプルーニング誤差を大幅に低減し, 最先端のGPTアーキテクチャにおいて高いベースラインを達成し, メモリ効率を保っている。
論文 参考訳(メタデータ) (2025-10-15T16:13:44Z) - Investigating Structural Pruning and Recovery Techniques for Compressing Multimodal Large Language Models: An Empirical Study [64.26593350748401]
MLLM(Multimodal Large Language Models)は印象的な機能を示す。
SLM(Small Language Models)からのMLLMの学習を主とするパラメータ削減技術
本稿では, 構造物の刈り込みと効率的な回復訓練を組み合わせることで, 既存のMLLMを直接圧縮することを提案する。
論文 参考訳(メタデータ) (2025-07-28T11:57:52Z) - Olica: Efficient Structured Pruning of Large Language Models without Retraining [0.1534667887016089]
既存のLarge Language Models (LLMs) の構造化プルーニング手法では、破損した相関を再構築するために、再トレーニングに相当な計算資源とデータ資源が必要である。
直交分解(Orthogonal decomposition)と線形分解(Olica)と呼ばれるLCMのプルーニングフレームワークを提案する。
提案されているOllicaは、データ使用量、GPUメモリ、実行時間の点で効率的であり、複数のベンチマークで優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-06-10T04:19:38Z) - Boosting All-in-One Image Restoration via Self-Improved Privilege Learning [72.35265021054471]
SIPL(Self-Improved Privilege Learning)は、トレーニング以外の特権情報(PI)を推論段階に拡張することで制限を克服する新しいパラダイムである。
SIPLの中心は、学習可能なPrivleged Dictionaryを組み込んだ軽量モジュールであるProxy Fusionである。
大規模な実験により、SIPLは様々なオールインワン画像復元ベンチマークの最先端性を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-05-30T04:36:52Z) - A deeper look at depth pruning of LLMs [49.30061112976263]
大規模言語モデル(LLM)は、トレーニングにはリソース集約的だが、本番環境でのデプロイにはよりコストがかかる。
最近の研究は、ブロックの重要性を推定するために、安価なプロキシに基づいてLSMのブロックをプルークしようと試みている。
適応メトリクスはタスク間のパフォーマンスのトレードオフを示すことを示す。
論文 参考訳(メタデータ) (2024-07-23T08:40:27Z) - Reconstruct the Pruned Model without Any Retraining [23.235907813011174]
本稿では,線形補間に基づく適応再構成(LIAR)フレームワークを提案する。
LIARはバックプロパゲーションや再トレーニングを必要とせず、様々なプルーニング基準やモジュールと互換性がある。
GLUE, SQuAD, WikiText, 常識推論などのベンチマークによる評価の結果, LIARはパラメータの50%を除去しても, 98%の精度でBERTモデルを維持できることがわかった。
論文 参考訳(メタデータ) (2024-07-18T09:30:44Z) - AdaIR: Exploiting Underlying Similarities of Image Restoration Tasks with Adapters [57.62742271140852]
AdaIRは、パフォーマンスを犠牲にすることなく、低コストで効率的なトレーニングを可能にする新しいフレームワークである。
AdaIRは軽量でタスク固有のモジュールのトレーニングのみを必要とし、より効率的なストレージとトレーニング体制を確保する。
論文 参考訳(メタデータ) (2024-04-17T15:31:06Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - PERP: Rethinking the Prune-Retrain Paradigm in the Era of LLMs [22.557682089926004]
パラメータの小さなサブセットを更新すれば、刈り込み後の回復や性能向上に十分であることを示す。
標準のLoRAとは異なり、スパシティを損なうことなくアダプタを再びマージできる2つの新しいLoRA変種を導入する。
論文 参考訳(メタデータ) (2023-12-23T11:45:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。