論文の概要: High-Layer Attention Pruning with Rescaling
- arxiv url: http://arxiv.org/abs/2507.01900v1
- Date: Wed, 02 Jul 2025 17:15:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.38947
- Title: High-Layer Attention Pruning with Rescaling
- Title(参考訳): 再スケーリングによる高層アテンションプルーニング
- Authors: Songtao Liu, Peng Liu,
- Abstract要約: プルーニングは大規模言語モデル(LLM)の圧縮に非常に効果的な手法である
本稿では,モデル上層における注意を戦略的に喚起する新しいプルーニングアルゴリズムを提案する。
我々は, LLaMA3.1-8B, Mistral-7B-v0.3, Qwen2-7B, Gemma2-9Bを含む広範囲のLLMについて総合的な実験を行った。
- 参考スコア(独自算出の注目度): 14.141903038286362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pruning is a highly effective approach for compressing large language models (LLMs), significantly reducing inference latency. However, conventional training-free structured pruning methods often employ a heuristic metric that indiscriminately removes some attention heads across all pruning layers, without considering their positions within the network architecture. In this work, we propose a novel pruning algorithm that strategically prunes attention heads in the model's higher layers. Since the removal of attention heads can alter the magnitude of token representations, we introduce an adaptive rescaling parameter that calibrates the representation scale post-pruning to counteract this effect. We conduct comprehensive experiments on a wide range of LLMs, including LLaMA3.1-8B, Mistral-7B-v0.3, Qwen2-7B, and Gemma2-9B. Our evaluation includes both generation and discriminative tasks across 27 datasets. The results consistently demonstrate that our method outperforms existing structured pruning methods. This improvement is particularly notable in generation tasks, where our approach significantly outperforms existing baselines.
- Abstract(参考訳): プルーニングは大規模言語モデル(LLM)の圧縮に非常に効果的な手法であり、推論遅延を大幅に低減する。
しかし、従来のトレーニング不要な構造化プルーニング手法では、ネットワークアーキテクチャ内での位置を考慮せずに、すべてのプルーニング層を横断する注意を無差別に除去するヒューリスティックな指標を用いることが多い。
本研究では,モデル上層における注意を戦略的に喚起する新しいプルーニングアルゴリズムを提案する。
注目ヘッドの除去はトークン表現の大きさを変えることができるため、適応的再スケーリングパラメータを導入し、表現スケールを調整し、この効果に対処する。
LLaMA3.1-8B, Mistral-7B-v0.3, Qwen2-7B, Gemma2-9Bを含む広範囲のLLMについて総合的な実験を行った。
評価には、27のデータセットにまたがる生成タスクと識別タスクの両方が含まれる。
その結果,本手法は既存の定型プルーニング法よりも優れた性能を示した。
この改善は、我々のアプローチが既存のベースラインを大幅に上回る世代タスクにおいて特に顕著です。
関連論文リスト
- Pruning Everything, Everywhere, All at Once [1.7811840395202343]
ディープラーニングモデルにおけるプルーニング構造は、モデルの複雑さを効率的に低減し、計算効率を向上させる。
本稿では,モデル内で異なる構造を抽出できる新しい手法を提案する。
このプロセスを反復的に繰り返すことは、元の予測能力を保った非常にスパースなモデルを提供する。
論文 参考訳(メタデータ) (2025-06-04T23:34:28Z) - Towards Extreme Pruning of LLMs with Plug-and-Play Mixed Sparsity [32.668409666483626]
既存のプルーニング手法は主に、プルーニングをガイドするネットワークコンポーネントの重要性を測定するためにメトリクスを設計することに焦点を当てている。
本稿では,FIM(Fiher Information Matrix)のトレースに基づく効率的な手法を提案する。
そこで本研究では,異なる層に対する最適スパシティレベルを決定するために,プルーニング指向の進化的アルゴリズム(EA)を用いたMixed Sparsity Pruning (MSP)を提案する。
論文 参考訳(メタデータ) (2025-03-14T08:05:49Z) - LLM-BIP: Structured Pruning for Large Language Models with Block-Wise Forward Importance Propagation [0.0]
ブロック単位の重要スコアの伝搬に基づくより正確なプルーニング指標を提案する。
我々は,LLaMA-7B,Vicuna-7B,LLaMA-13Bを用いて,共通ゼロショットタスクを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2024-12-09T11:57:16Z) - Effective Layer Pruning Through Similarity Metric Perspective [0.0]
ディープニューラルネットワークは、認知タスクを解決する機械学習において、主要なパラダイムとなっている。
これらのモデルから構造を抽出することは、ネットワークの複雑さを減らすための簡単なアプローチである。
層プルーニングは、しばしば高い圧縮速度でネットワーク予測能力(すなわち精度)を損なう。
この研究は、プルーニング手法によって追求されるすべての基礎特性を満たす効果的なレイヤ・プルーニング戦略を導入する。
論文 参考訳(メタデータ) (2024-05-27T11:54:51Z) - Advancing Model Pruning via Bi-level Optimization [89.88761425199598]
イテレーティブ・マグニチュード・プルーニング(IMP)は,「入賞券」の発見に成功するプルーニング法である
ワンショットプルーニング法が開発されているが、これらのスキームは通常IMPほど勝利のチケットを見つけることができない。
提案手法は,双線形問題構造を持つBLO問題の特別なクラスであることを示す。
論文 参考訳(メタデータ) (2022-10-08T19:19:29Z) - Neural Pruning via Growing Regularization [82.9322109208353]
プルーニングの2つの中心的な問題:プルーニングのスケジュールと重み付けの重要度だ。
具体的には, ペナルティ要因が増大するL2正規化変種を提案し, 精度が著しく向上することを示した。
提案アルゴリズムは,構造化プルーニングと非構造化プルーニングの両方において,大規模データセットとネットワークの実装が容易かつスケーラブルである。
論文 参考訳(メタデータ) (2020-12-16T20:16:28Z) - Layer-adaptive sparsity for the Magnitude-based Pruning [88.37510230946478]
本稿では,LAMP(Layer-Adaptive magnitude-based pruning)スコアを用いたグローバルプルーニングの新たな重要点を提案する。
LAMPは、階層的な空間選択のための一般的なスキームを一貫して上回っている。
論文 参考訳(メタデータ) (2020-10-15T09:14:02Z) - Lookahead: A Far-Sighted Alternative of Magnitude-based Pruning [83.99191569112682]
マグニチュードベースのプルーニングは、ニューラルネットワークをプルーニングする最も単純な方法の1つである。
我々は,単一層最適化を多層最適化に拡張することにより,単純なプルーニング法であるルックアヘッドプルーニングを開発した。
実験の結果,提案手法は様々なネットワーク上での大規模プルーニングよりも一貫して優れていた。
論文 参考訳(メタデータ) (2020-02-12T05:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。