論文の概要: $D^2Prune$: Sparsifying Large Language Models via Dual Taylor Expansion and Attention Distribution Awareness
- arxiv url: http://arxiv.org/abs/2601.09176v1
- Date: Wed, 14 Jan 2026 05:17:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.283047
- Title: $D^2Prune$: Sparsifying Large Language Models via Dual Taylor Expansion and Attention Distribution Awareness
- Title(参考訳): D^2Prune$:デュアルテイラー展開と注意分布認識による大規模言語モデルのスポーリング
- Authors: Lang Xiong, Ning Liu, Ao Ren, Yuheng Bai, Haining Fang, BinYan Zhang, Zhe Jiang, Yujuan Tan, Duo Liu,
- Abstract要約: 大規模言語モデル(LLM)は、その膨大な計算要求のため、重大なデプロイメント上の課題に直面している。
本稿では,これらの制約に対処するため,新しいプルーニング法である$D2Prune$を提案する。
D2Prune$ は、様々な LLM でSOTA メソッドを一貫して上回る。
- 参考スコア(独自算出の注目度): 13.59262810896553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) face significant deployment challenges due to their massive computational demands. % While pruning offers a promising compression solution, existing methods suffer from two critical limitations: (1) They neglect activation distribution shifts between calibration data and test data, resulting in inaccurate error estimations; (2) They overlook the long-tail distribution characteristics of activations in the attention module. To address these limitations, this paper proposes a novel pruning method, $D^2Prune$. First, we propose a dual Taylor expansion-based method that jointly models weight and activation perturbations for precise error estimation, leading to precise pruning mask selection and weight updating and facilitating error minimization during pruning. % Second, we propose an attention-aware dynamic update strategy that preserves the long-tail attention pattern by jointly minimizing the KL divergence of attention distributions and the reconstruction error. Extensive experiments show that $D^2Prune$ consistently outperforms SOTA methods across various LLMs (e.g., OPT-125M, LLaMA2/3, and Qwen3). Moreover, the dynamic attention update mechanism also generalizes well to ViT-based vision models like DeiT, achieving superior accuracy on ImageNet-1K.
- Abstract(参考訳): 大規模言語モデル(LLM)は、その膨大な計算要求のため、重大なデプロイメント上の課題に直面している。
% プルーニングは有望な圧縮ソリューションを提供するが,既存の手法では,(1) キャリブレーションデータとテストデータ間の活性化分布シフトを無視し,不正確な誤差推定を行い,(2) 注意モジュール内のアクティベーションの長期分布特性を見落としている。
これらの制約に対処するため,本研究では,新しいプルーニング法である$D^2Prune$を提案する。
まず,重みとアクティベーションの摂動を協調的にモデル化し,高精度なプルーニングマスク選択と重み更新を実現し,プルーニング時の誤差最小化を容易にする2つのテイラー展開法を提案する。
%) 注意分布のKL分散と復元誤差を最小化することにより, 長時間の注意パターンを保ちながら注意を意識した動的更新戦略を提案する。
大規模な実験により、$D^2Prune$ は様々な LLM (eg , OPT-125M, LLaMA2/3, Qwen3) で SOTA 法より一貫して優れていた。
さらに、ダイナミックアテンション更新機構は、DeiTのようなViTベースのビジョンモデルにも適しており、ImageNet-1K上でより優れた精度を実現している。
関連論文リスト
- Which Layer Causes Distribution Deviation? Entropy-Guided Adaptive Pruning for Diffusion and Flow Models [77.55829017952728]
EntPrunerは、拡散およびフローモデルのためのエントロピー誘導自動プログレッシブプルーニングフレームワークである。
DiTモデルとSiTモデルの実験はEntPrunerの有効性を示し、最大2.22$times$推論スピードアップを達成する。
論文 参考訳(メタデータ) (2025-11-26T07:20:48Z) - D2D: Detector-to-Differentiable Critic for Improved Numeracy in Text-to-Image Generation [26.820694706602236]
Detector-to-Differentiable (D2D)は、微分不可能な検出モデルを微分可能な批評家に変換する新しいフレームワークである。
SDXL-Turbo, SD-Turbo, Pixart-DMDを用いた実験により, オブジェクトカウント精度が一貫した, 実質的な改善が示された。
論文 参考訳(メタデータ) (2025-10-22T06:27:05Z) - Dual-Stage Reweighted MoE for Long-Tailed Egocentric Mistake Detection [85.0189917888094]
本稿では,微妙で頻繁なミスによって生じる課題に対処するため,Dual-Stage Reweighted Mixture-of-Experts (DR-MoE) フレームワークを提案する。
提案手法は,特に稀かつ曖昧な誤りの特定において,高い性能を達成する。
論文 参考訳(メタデータ) (2025-09-16T12:00:42Z) - Attention, Please! Revisiting Attentive Probing Through the Lens of Efficiency [20.320991233039965]
微調整が大規模で非現実的になると、好ましい評価プロトコルとして探索が出現する。
これは注意力を使ってパッチレベルの機能を選択的に集約する代替手段である注意力調査の必要性を動機付けている。
本稿では,既存の手法を総合的に検討し,その設計選択を解析し,性能をベンチマークする。
論文 参考訳(メタデータ) (2025-06-11T21:10:26Z) - SPAT: Sensitivity-based Multihead-attention Pruning on Time Series Forecasting Models [8.817690876855728]
本研究では,SPAT(textbfS$ensitivity $textbfP$runer for $textbfAt$tention)という構造化プルーニング手法を提案する。
データセットの実験では、SPATで処理されたモデルはMSEで2.842%、MAEで1.996%、FLOPで35.274%の削減を達成した。
論文 参考訳(メタデータ) (2025-05-13T17:39:31Z) - Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。