論文の概要: Greedy-Gnorm: A Gradient Matrix Norm-Based Alternative to Attention Entropy for Head Pruning
- arxiv url: http://arxiv.org/abs/2602.04491v1
- Date: Wed, 04 Feb 2026 12:28:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.521587
- Title: Greedy-Gnorm: A Gradient Matrix Norm-Based Alternative to Attention Entropy for Head Pruning
- Title(参考訳): Greedy-Gnorm: ヘッドプルーニングにおける注意エントロピーに代わるグラディエントマトリックスノルム
- Authors: Yuxi Guo, Paul Sheridan,
- Abstract要約: グレディ・グラディエント・ノルム(グレディ・グラディエント・ノルム、Greedy-Gradient norm、Greedy-Gnorm、Greedy-Gnorm、Greedy-Gnorm、Greedy-Gnorm)は、ヘッド・プルーニング・アルゴリズムである。
BERT, ALBERT, RoBERTa, XLM-RoBERTaの実験は、グリーディ・グノームが実質的な頭部除去の下で常に精度を保っていることを示した。
- 参考スコア(独自算出の注目度): 1.0742675209112622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention head pruning has emerged as an effective technique for transformer model compression, an increasingly important goal in the era of Green AI. However, existing pruning methods often rely on static importance scores, which fail to capture the evolving role of attention heads during iterative removal. We propose Greedy-Gradient norm (Greedy-Gnorm), a novel head pruning algorithm that dynamically recalculates head importance after each pruning step. Specifically, each head is scored by the elementwise product of the l2-norms of its Q/K/V gradient blocks, as estimated from a hold-out validation set and updated at every greedy iteration. This dynamic approach to scoring mitigates against stale rankings and better reflects gradient-informed importance as pruning progresses. Extensive experiments on BERT, ALBERT, RoBERTa, and XLM-RoBERTa demonstrate that Greedy-Gnorm consistently preserves accuracy under substantial head removal, outperforming attention entropy. By effectively reducing model size while maintaining task performance, Greedy-Gnorm offers a promising step toward more energy-efficient transformer model deployment.
- Abstract(参考訳): インテンションヘッドプルーニングは、グリーンAI時代においてますます重要な目標であるトランスフォーマーモデル圧縮の有効なテクニックとして登場した。
しかし、既存のプルーニング法は、しばしば静的な重要度に頼っているため、反復的除去時の注目ヘッドの役割の進化を捉えていない。
Greedy-Gradient norm(Greedy-Gnorm)を提案する。
具体的には、各ヘッドは、そのQ/K/V勾配ブロックのl2-ノルムの要素積によってスコアされ、ホールドアウト検証セットから推定され、各グレディ反復で更新される。
古いランクに対するミティゲートの評価に対するこのダイナミックなアプローチは、プルーニングの進行に伴って勾配インフォームドの重要性を反映する。
BERT, ALBERT, RoBERTa, XLM-RoBERTaの広範囲にわたる実験により, グリーディ・グノームは相当な頭部除去の下で常に精度を保ち, 注意エントロピーよりも優れていた。
タスクパフォーマンスを維持しながらモデルサイズを効果的に削減することで、Greedy-Gnormはよりエネルギー効率の良いトランスフォーマーモデル展開に向けた有望なステップを提供する。
関連論文リスト
- Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models [57.20761595019967]
注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。
NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。
NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
論文 参考訳(メタデータ) (2025-05-27T13:30:46Z) - PACE: Marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization [35.922096876707975]
PACE は PArameter- efficient fine-tuning with Consistency rEgularization の一般化である。
拡張一般化のための勾配を暗黙的に正規化するが、知識を保持するために微調整されたモデルや事前訓練されたモデルも暗黙的に整列する。
また、テキスト分類(GLUE)や数学的推論においてLoRAを改善している。
論文 参考訳(メタデータ) (2024-09-25T17:56:00Z) - Semi-Supervised Unconstrained Head Pose Estimation in the Wild [57.11798881492183]
本研究では,最初の半教師なしヘッドポーズ推定手法であるSemiUHPEを提案する。
本手法は, 前回のランドマークに基づくアフィンアライメントよりも, 野生の頭部のアスペクト比不変収穫が優れているという観測に基づいている。
提案手法は, 汎用物体回転回帰法や3次元頭部再構成法など, その他の密接に関連する問題を解く上でも有用である。
論文 参考訳(メタデータ) (2024-04-03T08:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。