論文の概要: Greedy-Gnorm: A Gradient Matrix Norm-Based Alternative to Attention Entropy for Head Pruning
- arxiv url: http://arxiv.org/abs/2602.04491v1
- Date: Wed, 04 Feb 2026 12:28:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.521587
- Title: Greedy-Gnorm: A Gradient Matrix Norm-Based Alternative to Attention Entropy for Head Pruning
- Title(参考訳): Greedy-Gnorm: ヘッドプルーニングにおける注意エントロピーに代わるグラディエントマトリックスノルム
- Authors: Yuxi Guo, Paul Sheridan,
- Abstract要約: グレディ・グラディエント・ノルム(グレディ・グラディエント・ノルム、Greedy-Gradient norm、Greedy-Gnorm、Greedy-Gnorm、Greedy-Gnorm、Greedy-Gnorm)は、ヘッド・プルーニング・アルゴリズムである。
BERT, ALBERT, RoBERTa, XLM-RoBERTaの実験は、グリーディ・グノームが実質的な頭部除去の下で常に精度を保っていることを示した。
- 参考スコア(独自算出の注目度): 1.0742675209112622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention head pruning has emerged as an effective technique for transformer model compression, an increasingly important goal in the era of Green AI. However, existing pruning methods often rely on static importance scores, which fail to capture the evolving role of attention heads during iterative removal. We propose Greedy-Gradient norm (Greedy-Gnorm), a novel head pruning algorithm that dynamically recalculates head importance after each pruning step. Specifically, each head is scored by the elementwise product of the l2-norms of its Q/K/V gradient blocks, as estimated from a hold-out validation set and updated at every greedy iteration. This dynamic approach to scoring mitigates against stale rankings and better reflects gradient-informed importance as pruning progresses. Extensive experiments on BERT, ALBERT, RoBERTa, and XLM-RoBERTa demonstrate that Greedy-Gnorm consistently preserves accuracy under substantial head removal, outperforming attention entropy. By effectively reducing model size while maintaining task performance, Greedy-Gnorm offers a promising step toward more energy-efficient transformer model deployment.
- Abstract(参考訳): インテンションヘッドプルーニングは、グリーンAI時代においてますます重要な目標であるトランスフォーマーモデル圧縮の有効なテクニックとして登場した。
しかし、既存のプルーニング法は、しばしば静的な重要度に頼っているため、反復的除去時の注目ヘッドの役割の進化を捉えていない。
Greedy-Gradient norm(Greedy-Gnorm)を提案する。
具体的には、各ヘッドは、そのQ/K/V勾配ブロックのl2-ノルムの要素積によってスコアされ、ホールドアウト検証セットから推定され、各グレディ反復で更新される。
古いランクに対するミティゲートの評価に対するこのダイナミックなアプローチは、プルーニングの進行に伴って勾配インフォームドの重要性を反映する。
BERT, ALBERT, RoBERTa, XLM-RoBERTaの広範囲にわたる実験により, グリーディ・グノームは相当な頭部除去の下で常に精度を保ち, 注意エントロピーよりも優れていた。
タスクパフォーマンスを維持しながらモデルサイズを効果的に削減することで、Greedy-Gnormはよりエネルギー効率の良いトランスフォーマーモデル展開に向けた有望なステップを提供する。
関連論文リスト
- Entropy Meets Importance: A Unified Head Importance-Entropy Score for Stable and Efficient Transformer Pruning [12.828759970455215]
本稿では,頭部重大スコアと注意エントロピーを統合したHIES(Head Importance-Entropy Score)を紹介する。
実験的に、HIESベースのプルーニングは、モデル品質を最大15.2%改善し、HISのみの手法よりも安定性を2.04倍改善する。
論文 参考訳(メタデータ) (2025-10-10T12:08:20Z) - C$^2$GSPG: Confidence-calibrated Group Sequence Policy Gradient towards Self-aware Reasoning [54.705168477975384]
推論モデル学習のためのグループシーケンスポリシーグラディエント(GSPG)フレームワーク。
C$2$GSPGは、自信過剰を抑えながら推論性能を同時に向上させる。
論文 参考訳(メタデータ) (2025-09-27T05:24:51Z) - Parameterized Diffusion Optimization enabled Autoregressive Ordinal Regression for Diabetic Retinopathy Grading [53.11883409422728]
本研究は, AOR-DRと呼ばれる新しい自己回帰的順序回帰法を提案する。
我々は,糖尿病網膜症分類タスクを,前ステップの予測と抽出画像の特徴を融合させることにより,一連の順序段階に分解する。
拡散過程を利用して条件付き確率モデリングを行い、連続的グローバルな画像特徴を自己回帰に利用できるようにする。
論文 参考訳(メタデータ) (2025-07-07T13:22:35Z) - Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models [57.20761595019967]
注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。
NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。
NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
論文 参考訳(メタデータ) (2025-05-27T13:30:46Z) - Graph-Structured Driven Dual Adaptation for Mitigating Popularity Bias [29.518103753073145]
人気バイアスは、不均一なレコメンデーションパフォーマンスを引き起こし、マシュー効果を増幅することによってレコメンデーションシステムに挑戦する。
既存の教師付きアライメントと再重み付け手法は、このバイアスを軽減するが、重要な制限がある。
これらの問題に対処するためのグラフ構造化デュアル適応フレームワーク(GSDA)を提案する。
論文 参考訳(メタデータ) (2025-03-30T08:26:29Z) - PACE: Marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization [35.922096876707975]
PACE は PArameter- efficient fine-tuning with Consistency rEgularization の一般化である。
拡張一般化のための勾配を暗黙的に正規化するが、知識を保持するために微調整されたモデルや事前訓練されたモデルも暗黙的に整列する。
また、テキスト分類(GLUE)や数学的推論においてLoRAを改善している。
論文 参考訳(メタデータ) (2024-09-25T17:56:00Z) - Graph Anomaly Detection with Noisy Labels by Reinforcement Learning [13.135788402192215]
本稿では,新しいフレームワークREGAD,すなわちReinforced Graph Anomaly Detectorを提案する。
具体的には,高信頼ラベルを用いたノード間を近似したノイズエッジを切断することにより,ベース検出器の性能向上(AUC)を最大化することを目的とする。
論文 参考訳(メタデータ) (2024-07-08T13:41:21Z) - Semi-Supervised Unconstrained Head Pose Estimation in the Wild [57.11798881492183]
本研究では,最初の半教師なしヘッドポーズ推定手法であるSemiUHPEを提案する。
本手法は, 前回のランドマークに基づくアフィンアライメントよりも, 野生の頭部のアスペクト比不変収穫が優れているという観測に基づいている。
提案手法は, 汎用物体回転回帰法や3次元頭部再構成法など, その他の密接に関連する問題を解く上でも有用である。
論文 参考訳(メタデータ) (2024-04-03T08:01:00Z) - Attention Map Guided Transformer Pruning for Edge Device [98.42178656762114]
視覚トランスフォーマー (ViT) は, 全体的かつ隠蔽された人物再識別 (Re-ID) タスクにおいて, 有望な成功を収めた。
本稿では、冗長なトークンとヘッドの両方を除去する新しいアテンションマップガイド(AMG)トランスフォーマープルーニング法を提案する。
Occluded DukeMTMC と Market-1501 に関する総合的な実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-04-04T01:51:53Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。