論文の概要: Efficient Post-Training Pruning of Large Language Models with Statistical Correction
- arxiv url: http://arxiv.org/abs/2602.07375v1
- Date: Sat, 07 Feb 2026 05:36:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.591234
- Title: Efficient Post-Training Pruning of Large Language Models with Statistical Correction
- Title(参考訳): 統計的補正を伴う大規模言語モデルの効率的な学習後プルーニング
- Authors: Peiqi Yu, Jinhao Wang, Xinyi Sui, Nam Ling, Wei Wang, Wei Jiang,
- Abstract要約: 訓練後のプルーニングは、大規模言語モデルのサイズと推論コストを減らす効果的なアプローチである。
モデル重みとアクティベーションの1次統計特性に基づく軽量な後訓練型プルーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.11437082803784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training pruning is an effective approach for reducing the size and inference cost of large language models (LLMs), but existing methods often face a trade-off between pruning quality and computational efficiency. Heuristic pruning methods are efficient but sensitive to activation outliers, while reconstruction-based approaches improve fidelity at the cost of heavy computation. In this work, we propose a lightweight post-training pruning framework based on first-order statistical properties of model weights and activations. During pruning, channel-wise statistics are used to calibrate magnitude-based importance scores, reducing bias from activation-dominated channels. After pruning, we apply an analytic energy compensation to correct distributional distortions caused by weight removal. Both steps operate without retraining, gradients, or second-order information. Experiments across multiple LLM families, sparsity patterns, and evaluation tasks show that the proposed approach improves pruning performance while maintaining computational cost comparable to heuristic methods. The results suggest that simple statistical corrections can be effective for post-training pruning of LLMs.
- Abstract(参考訳): 訓練後プルーニングは、大規模言語モデル(LLM)のサイズと推論コストを削減する効果的な手法であるが、既存の手法では、プルーニングの品質と計算効率のトレードオフに直面していることが多い。
ヒューリスティック・プルーニング法は効率は良いが, アクティベーション・アウトレイアに敏感である。
本研究では,モデル重みとアクティベーションの1次統計特性に基づく,軽量なポストトレーニングプルーニングフレームワークを提案する。
プルーニング中、チャンネルワイズ統計は、大きさに基づく重要度スコアを調整し、アクティベーションに支配されたチャネルからのバイアスを減らすために使用される。
刈り取り後,重量除去に伴う分布歪みの補正に解析エネルギー補償を適用した。
どちらのステップも、リトレーニング、勾配、または2階情報なしで動作します。
複数のLLMファミリー、スパーシティパターン、評価タスクにわたる実験により、提案手法はヒューリスティック手法に匹敵する計算コストを維持しながら、プルーニング性能を向上させることが示された。
以上の結果から, 簡易な統計的補正がLLMの訓練後プルーニングに有効であることが示唆された。
関連論文リスト
- Gradually Compacting Large Language Models for Reasoning Like a Boiling Frog [72.4168434368873]
大きな言語モデル(LLM)は印象的な推論能力を示しているが、その相当なサイズは、しばしばかなりの計算資源を必要とする。
圧縮過程を細かな繰り返しに分割する段階的圧縮法を提案する。
この「沸騰するカエル」効果の反復的なアプローチは、急激な性能損失を伴わずに、モデルを段階的に圧縮することができる。
論文 参考訳(メタデータ) (2026-02-04T06:56:52Z) - Nested-ReFT: Efficient Reinforcement Learning for Large Language Model Fine-Tuning via Off-Policy Rollouts [25.205293698698867]
我々はNested-ReFTを導入し、ターゲットモデルのサブセットがトレーニング中に非政治的な完了を生成する行動モデルとして機能する。
我々の理論的分析は、Nested-ReFTが制御された分散を伴う非バイアス勾配推定値を得ることを示している。
我々の経験的分析は、複数の数学推論ベンチマークとモデルサイズでトークン/秒として測定された計算効率の改善を実証している。
論文 参考訳(メタデータ) (2025-08-13T18:37:46Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。