論文の概要: Data-Free Pruning of Self-Attention Layers in LLMs
- arxiv url: http://arxiv.org/abs/2512.20636v1
- Date: Wed, 03 Dec 2025 07:47:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-29 00:37:57.106863
- Title: Data-Free Pruning of Self-Attention Layers in LLMs
- Title(参考訳): LLMにおける自己保持層のデータフリープルーニング
- Authors: Dhananjay Saikumar, Blesson Varghese,
- Abstract要約: 本稿では,クエリーキー結合によって注目サブレイヤをランク付けする1ショットの重みのみの基準であるGate-Normを提案する。
Gate-Normは、キャリブレーションデータを必要とせず、フォワードパスも微調整も不要で、特別なカーネルも不要である。
- 参考スコア(独自算出の注目度): 1.7188280334580195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many self-attention sublayers in large language models (LLMs) can be removed with little to no loss. We attribute this to the Attention Suppression Hypothesis: during pre-training, some deep attention layers learn to mute their own contribution, leaving the residual stream and the MLP to carry the representation. We propose Gate-Norm, a one-shot, weight-only criterion that ranks attention sublayers by query--key coupling and removes the least coupled ones, requiring no calibration data, no forward passes, no fine-tuning, and no specialized kernels. On 40-layer, 13B-parameter LLaMA models, Gate-Norm prunes the model in under a second. Pruning $8$--$16$ attention sublayers yields up to $1.30\times$ higher inference throughput while keeping average zero-shot accuracy within $2\%$ of the unpruned baseline across BoolQ, RTE, HellaSwag, WinoGrande, ARC-Easy/Challenge, and OpenBookQA. Across these settings, Gate-Norm matches data-driven pruning methods in accuracy while being $\sim 1000\times$ faster to score layers, enabling practical, data-free compression of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)における多くの自己注意サブレイヤは、ほとんど、あるいは全く損失なく除去することができる。
事前学習中、いくつかの深い注意層は、自分自身の貢献をミュートし、残りのストリームとMLPを表現に残すように学習する。
本稿では,クエリキー結合による注目サブレイヤのランク付けと,キャリブレーションデータの不要,フォワードパスの不要,微調整の不要,特別なカーネルの不要など,最も結合度が低いものを取り除いた一発の重み付き基準であるGate-Normを提案する。
40層、13BパラメーターのLLaMAモデルでは、Gate-Normは1秒未満でモデルを熟成する。
注意サブレイヤを8ドルから16ドルにすることで、平均的なゼロショット精度をBoolQ、RTE、HellaSwag、WinoGrande、ARC-Easy/Challenge、OpenBookQAの2ドル以下に保ちながら、最大1.30\times$高い推論スループットが得られる。
これらの設定全体にわたって、Gate-Normはデータ駆動のプルーニングメソッドを精度良くマッチングし、レイヤのスコアを高速化し、実用的なデータフリー圧縮を可能にする。
関連論文リスト
- The Structural Scalpel: Automated Contiguous Layer Pruning for Large Language Models [33.90597962418094]
大規模言語モデルのための新しい連続層プルーニングフレームワークであるCLPを提案する。
CLPは、プルーニングに最適な連続層セグメントを自動的に識別する、微分可能な凹面ゲートアルゴリズムを使用している。
CLPは量子化とシームレスに結合して、わずかな性能損失だけでモデルをさらに圧縮することができる。
論文 参考訳(メタデータ) (2025-10-25T16:40:17Z) - What Layers When: Learning to Skip Compute in LLMs with Residual Gates [66.23658560048241]
GateSkipは、デコーダのみのLMにおけるトークンワイド層スキップを可能にする残差ストリームゲーティング機構である。
各Attention/MLPブランチは、残ストリームに再入力する前に、ブランチの出力を凝縮するシグモイドリニアゲートを備えている。
論文 参考訳(メタデータ) (2025-10-13T16:31:50Z) - SDMPrune: Self-Distillation MLP Pruning for Efficient Large Language Models [3.962074007736394]
原モデルの予測を十分に活用するために,プレニング段階(後訓練ではなく)に自己蒸留損失を導入する。
提案手法は,既存の刈り取り法よりも大幅に優れていることを示す。
提案手法は,1BスケールのオープンソースLLMにおいて,非常に競争力のある性能を実現する。
論文 参考訳(メタデータ) (2025-06-10T02:24:32Z) - Towards Efficient Automatic Self-Pruning of Large Language Models [55.90119819642064]
トレーニング後の構造化プルーニングは、トレーニングを必要とせずに大規模言語モデルを熟成する有望なソリューションである。
この問題を緩和する鍵は、各レイヤのプルーニング率を正確に決定することにある、と我々は主張する。
我々は、レイヤワイドプルーニングレートを効率的に検索するLLMのためのエンドツーエンドの自動自動プルーニングフレームワークである$textbfSelf-Prunerを紹介した。
論文 参考訳(メタデータ) (2025-02-20T09:59:50Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。