論文の概要: NIRVANA: Structured pruning reimagined for large language models compression
- arxiv url: http://arxiv.org/abs/2509.14230v1
- Date: Wed, 17 Sep 2025 17:59:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.953889
- Title: NIRVANA: Structured pruning reimagined for large language models compression
- Title(参考訳): NIRVANA:大規模言語モデル圧縮のための構造化プルーニング
- Authors: Mengting Ai, Tianxin Wei, Sirui Chen, Jingrui He,
- Abstract要約: 直近のゼロショット保存精度と頑健な微調整のバランスをとるために, NIRVANAを導入した。
構造化プルーニングによって引き起こされる固有の課題にさらに対処するため、NIRVANAは層やモジュール間の適応的な空間割当機構を取り入れている。
Llama3, Qwen, T5モデルで行った実験では、NIRVANAは等価な空間制約の下で既存の構造化プルーニング法よりも優れていた。
- 参考スコア(独自算出の注目度): 50.651730342011014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structured pruning of large language models (LLMs) offers substantial efficiency improvements by removing entire hidden units, yet current approaches often suffer from significant performance degradation, particularly in zero-shot settings, and necessitate costly recovery techniques such as supervised fine-tuning (SFT) or adapter insertion. To address these critical shortcomings, we introduce NIRVANA, a novel pruning method explicitly designed to balance immediate zero-shot accuracy preservation with robust fine-tuning capability. Leveraging a first-order saliency criterion derived from the Neural Tangent Kernel under Adam optimization dynamics, NIRVANA provides a theoretically grounded pruning strategy that respects essential model training behaviors. To further address the unique challenges posed by structured pruning, NIRVANA incorporates an adaptive sparsity allocation mechanism across layers and modules (attention vs. MLP), which adjusts pruning intensity between modules in a globally balanced manner. Additionally, to mitigate the high sensitivity of pruning decisions to calibration data quality, we propose a simple yet effective KL divergence-based calibration data selection strategy, ensuring more reliable and task-agnostic pruning outcomes. Comprehensive experiments conducted on Llama3, Qwen, and T5 models demonstrate that NIRVANA outperforms existing structured pruning methods under equivalent sparsity constraints, providing a theoretically sound and practical approach to LLM compression. The code is available at https://github.com/iDEA-iSAIL-Lab-UIUC/NIRVANA.
- Abstract(参考訳): 大規模言語モデル(LLM)の構造的プルーニングは、隠れたユニット全体を除去することで、大幅な効率の向上をもたらすが、現在のアプローチは、特にゼロショット設定において、大幅なパフォーマンス劣化に悩まされ、教師付き微調整(SFT)やアダプタ挿入のようなコストのかかる回復技術を必要とすることが多い。
これらの重要な欠点に対処するために、我々は、ゼロショット精度の即時保存と堅牢な微調整能力のバランスをとるように設計された新しいプルーニング手法であるNIRVANAを導入する。
ニューラル・タンジェント・カーネル(Neural Tangent Kernel)から派生した一階のサリエンシ基準をAdam Optimization dynamicsの下で活用し、NIRVANAは本質的なモデルトレーニングの振る舞いを尊重する理論的に根拠付けられたプルーニング戦略を提供する。
構造化プルーニングによって引き起こされる固有の課題にさらに対処するため、NIRVANAは、モジュール間のプルーニング強度をグローバルにバランスよく調整する、レイヤとモジュール間の適応的なスペーシティ割り当て機構(アテンション対MLP)を導入している。
さらに,キャリブレーションデータ品質に対するプルーニング決定の高感度化を図るため,より信頼性が高くタスク非依存なプルーニング結果を保証するため,KL分散型キャリブレーションデータ選択戦略を提案する。
Llama3, Qwen, T5モデルに対する総合的な実験により、NIRVANAは、等価な空間制約の下で既存の構造化プルーニング法よりも優れた性能を示し、LLM圧縮に対する理論的に健全で実用的なアプローチを提供する。
コードはhttps://github.com/iDEA-iSAIL-Lab-UIUC/NIRVANAで公開されている。
関連論文リスト
- Adaptive Nonlinear Vector Autoregression: Robust Forecasting for Noisy Chaotic Time Series [0.0]
ベクトル自己回帰と貯水池計算は カオス力学系の予測において 有望であることを示している
遅延埋め込み線形入力と浅い学習可能な多層パーセプトロンによって生成される特徴を組み合わせた適応的Nモデルを提案する。
論文 参考訳(メタデータ) (2025-07-11T16:40:10Z) - Sample-aware Adaptive Structured Pruning for Large Language Models [14.605017410864583]
本研究では,大規模言語モデル(LLM)のためのサンプル対応型構造化プルーニングフレームワークであるAdaPrunerを紹介する。
特に、AdaPrunerは構造化プルーニング解空間を構築して、LLMから冗長パラメータを効果的に除去する。
20%のプルーニング比で、AdaPrunerでプルーニングされたモデルは、未プルーニングモデルのパフォーマンスの97%を維持している。
論文 参考訳(メタデータ) (2025-03-08T12:00:21Z) - Enhancing Reliability of Neural Networks at the Edge: Inverted
Normalization with Stochastic Affine Transformations [0.22499166814992438]
インメモリコンピューティングアーキテクチャに実装されたBayNNのロバスト性と推論精度を本質的に向上する手法を提案する。
実証的な結果は推論精度の優雅な低下を示し、最大で58.11%の値で改善された。
論文 参考訳(メタデータ) (2024-01-23T00:27:31Z) - Achieving Constraints in Neural Networks: A Stochastic Augmented
Lagrangian Approach [49.1574468325115]
DNN(Deep Neural Networks)の正規化は、一般化性の向上とオーバーフィッティングの防止に不可欠である。
制約付き最適化問題としてトレーニングプロセスのフレーミングによるDNN正規化に対する新しいアプローチを提案する。
我々はAugmented Lagrangian (SAL) 法を用いて、より柔軟で効率的な正規化機構を実現する。
論文 参考訳(メタデータ) (2023-10-25T13:55:35Z) - Soft ascent-descent as a stable and flexible alternative to flooding [6.527016551650139]
我々は,軟化・ポイントワイド機構であるSoftADを提案する。この機構は,降水量と降水量の影響を制限し,洪水の上昇・昇華効果を維持できる。
我々は,より小さな損失一般化ギャップとモデル規範を享受しながら,浸水と競合する分類精度をSoftADが実現できることを実証する。
論文 参考訳(メタデータ) (2023-10-16T02:02:56Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - GDP: Stabilized Neural Network Pruning via Gates with Differentiable
Polarization [84.57695474130273]
ゲートベースまたは重要度に基づくプルーニング手法は、重要度が最小のチャネルを削除することを目的としている。
GDPは、各チャネルのオン・アンド・オフを制御するために、ベルやホイッスルのない畳み込み層の前に接続することができる。
CIFAR-10とImageNetデータセットを用いて行った実験は、提案したGDPが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2021-09-06T03:17:10Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。