論文の概要: Entropy Meets Importance: A Unified Head Importance-Entropy Score for Stable and Efficient Transformer Pruning
- arxiv url: http://arxiv.org/abs/2510.13832v1
- Date: Fri, 10 Oct 2025 12:08:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.458059
- Title: Entropy Meets Importance: A Unified Head Importance-Entropy Score for Stable and Efficient Transformer Pruning
- Title(参考訳): Entropy Meets Importance: 安定かつ効率的なトランスフォーマー・プルーニングのための統一されたヘッド・コンパタンス・エントロピースコア
- Authors: Minsik Choi, Hyegang Son, Changhoon Kim, Young Geun Kim,
- Abstract要約: 本稿では,頭部重大スコアと注意エントロピーを統合したHIES(Head Importance-Entropy Score)を紹介する。
実験的に、HIESベースのプルーニングは、モデル品質を最大15.2%改善し、HISのみの手法よりも安定性を2.04倍改善する。
- 参考スコア(独自算出の注目度): 12.828759970455215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based models have achieved remarkable performance in NLP tasks. However, their structural characteristics-multiple layers and attention heads-introduce efficiency challenges in inference and deployment. To address these challenges, various pruning methods have recently been proposed. Notably, gradient-based methods using Head Importance Scores (HIS) have gained traction for interpretability, efficiency, and ability to identify redundant heads. However, HIS alone has limitations as it captures only the gradient-driven contribution, overlooking the diversity of attention patterns. To overcome these limitations, we introduce a novel pruning criterion, HIES (Head Importance-Entropy Score), which integrates head importance scores with attention entropy, providing complementary evidence on per-head contribution. Empirically, HIES-based pruning yields up to 15.2% improvement in model quality and 2.04x improvement in stability over HIS-only methods, enabling substantial model compression without sacrificing either accuracy or stability. Code will be released upon publication.
- Abstract(参考訳): トランスフォーマーベースのモデルは、NLPタスクにおいて顕著なパフォーマンスを実現している。
しかし、それらの構造的特徴は、複数の層と注意を向けることで、推論と展開において効率の課題がもたらされる。
これらの課題に対処するため、近年様々なプルーニング手法が提案されている。
特に、Hed Importance Scores (HIS) を用いた勾配に基づく手法は、解釈可能性、効率、冗長なヘッドを識別する能力に牽引されている。
しかし、HISだけでは、注意パターンの多様性を見越して、勾配駆動による貢献のみを捉えているため、制限がある。
これらの制約を克服するために,頭部重要度スコアと注意エントロピーを統合した新しいプルーニング基準HIES(Head Importance-Entropy Score)を導入する。
実験的に、HIESベースのプルーニングは、モデル品質を最大15.2%改善し、HISのみの手法よりも安定性を2.04倍改善し、精度や安定性を犠牲にすることなく、実質的なモデル圧縮を可能にする。
コードは出版時に公開される。
関連論文リスト
- ERIS: An Energy-Guided Feature Disentanglement Framework for Out-of-Distribution Time Series Classification [51.07970070817353]
理想的な時系列分類(TSC)は不変表現をキャプチャできるべきである。
現在の手法は、真に普遍的な特徴を分離するために必要な意味的な方向性を欠いている。
本稿では,シフト・ロバストネス・フレームワークのためのエンドツーエンドのエネルギー規則化情報を提案する。
論文 参考訳(メタデータ) (2025-08-19T12:13:41Z) - Advancing Reliable Test-Time Adaptation of Vision-Language Models under Visual Variations [67.35596444651037]
視覚言語モデル(VLM)は、素晴らしいゼロショット機能を示すが、ラベル付きデータが利用できない場合、下流タスクの分散シフトに苦慮する。
本稿では,信頼性を両面から高めるReliable Test-Time Adaptation (ReTA)法を提案する。
論文 参考訳(メタデータ) (2025-07-13T05:37:33Z) - Stabilizing Quantization-Aware Training by Implicit-Regularization on Hessian Matrix [0.7261171488281837]
損失の急激な状況は、劇的なパフォーマンス低下を招き、不安定を引き起こす重要な要因であることがわかった。
本稿では, 定量化モデルに特徴蒸留法を適用し, 一般化するためのFPQを提案する。
論文 参考訳(メタデータ) (2025-03-14T07:56:20Z) - Rethinking Edge Detection through Perceptual Asymmetry: The SWBCE Loss [0.0]
本稿では,Symmetrization Weighted Binary Cross-Entropy (SWBCE)ロス関数を提案する。
ラベル誘導学習と予測誘導学習のバランスをとることで、SWBCEは偽陽性を効果的に抑制しつつ高いエッジリコールを維持する。
これらの結果は、高品質エッジ予測におけるSWBCEの有効性と、関連する視覚タスクへの適用可能性を示している。
論文 参考訳(メタデータ) (2025-01-23T04:10:31Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Task Adaptive Feature Transformation for One-Shot Learning [21.20683465652298]
単発タスクのための固定された事前学習機能の上に微調整された単純な非線形埋め込み適応層を導入する。
様々なワンショットベンチマークに対して一貫した改善が見られ、最近の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2023-04-13T21:52:51Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。