論文の概要: Exploiting Information Redundancy in Attention Maps for Extreme Quantization of Vision Transformers
- arxiv url: http://arxiv.org/abs/2508.16311v1
- Date: Fri, 22 Aug 2025 11:43:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.371669
- Title: Exploiting Information Redundancy in Attention Maps for Extreme Quantization of Vision Transformers
- Title(参考訳): 視覚変換器の極端量子化のためのアテンションマップの情報冗長化
- Authors: Lucas Maisonnave, Karim Haroun, Tom Pegeot,
- Abstract要約: 我々は,アテンションマップにおける情報冗長性を解析・活用し,モデル推論を高速化する。
シャノンエントロピーを用いて各アテンションヘッドが捉えた情報を定量化することにより、低いエントロピーを持つアテンションヘッドがより少ない情報に寄与することを示した。
本研究では,低エントロピーアテンションマップの重み付けを凍結し,これらの値を低精度に定量化して冗長再計算を回避するモデルであるエントロピーアテンションマップ(EAM)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformer models rely on Multi-Head Self-Attention (MHSA) mechanisms, where each attention head contributes to the final representation. However, their computational complexity and high memory demands due to MHSA hinders their deployment at the edge. In this work, we analyze and exploit information redundancy in attention maps to accelerate model inference. By quantifying the information captured by each attention head using Shannon entropy, our analysis reveals that attention heads with lower entropy, i.e., exhibiting more deterministic behavior, tend to contribute less information, motivating targeted compression strategies. Relying on these insights, we propose Entropy Attention Maps (EAM), a model that freezes the weights of low-entropy attention maps and quantizes these values to low precision to avoid redundant re-computation. Empirical validation on ImageNet-1k shows that EAM achieves similar or higher accuracy at $\leq$20\% sparsity in attention maps and competitive performance beyond this level for the DeiT and Swin Transformer models.
- Abstract(参考訳): トランスフォーマーモデルはMHSA(Multi-Head Self-Attention)機構に依存しており、各アテンションヘッドが最終表現に寄与する。
しかし、MHSAによる計算複雑性と高いメモリ要求は、エッジでのデプロイメントを妨げる。
本研究では,アテンションマップにおける情報冗長性を解析・活用し,モデル推論を高速化する。
シャノンエントロピー(Shannon entropy)を用いて各アテンションヘッドが捉えた情報を定量化することにより、アテンションヘッドが低いエントロピー、すなわちより決定論的行動を示し、より少ない情報に寄与し、目標とする圧縮戦略を動機付けていることを明らかにする。
これらの知見に基づいて、低エントロピー注意マップの重みを凍結し、これらの値を低精度に定量化し、冗長な再計算を避けるモデルであるエントロピー注意マップ(EAM)を提案する。
ImageNet-1kの実証検証では、EAMは注意マップにおける$\leq$20\%の間隔で類似またはより高い精度を達成し、DeiTおよびSwin Transformerモデルのこのレベルを超える競争性能を実現している。
関連論文リスト
- SAS: Simulated Attention Score [75.1409882298863]
我々は,多数の注目ヘッドと1頭あたりの隠れ特徴次元をシミュレートしながら,コンパクトなモデルサイズを維持するSAS(Simulated Attention Score)を導入する。
各種データセットとタスクに関する総合的な実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-07-10T12:16:16Z) - Mechanistic Interpretability of GPT-like Models on Summarization Tasks [2.4022340214033915]
本稿では,GPTライクなモデルが要約タスクにどのように適応するかを解析するための解釈可能性フレームワークを提案する。
重要な変換を行う特定のレイヤとアテンションヘッドを識別することにより、モデルアーキテクチャ内の"要約回路"を見つける。
論文 参考訳(メタデータ) (2025-05-20T02:15:11Z) - Improving Image Clustering with Artifacts Attenuation via Inference-Time Attention Engineering [1.8786950286587742]
モデルのサイズが大きくなるにつれて、マルチヘッドアテンションのパッチにハイノームアーティファクトが異常に現れる。
推論中に注意関数を操作するITAE(Inference-Time Attention Engineering)を提案する。
ITAEは、複数のデータセットのクラスタリング精度を改善し、潜在空間でより表現力のある機能を示す。
論文 参考訳(メタデータ) (2024-10-07T07:26:10Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - ESSAformer: Efficient Transformer for Hyperspectral Image
Super-resolution [76.7408734079706]
単一ハイパースペクトル像超解像(単一HSI-SR)は、低分解能観測から高分解能ハイパースペクトル像を復元することを目的としている。
本稿では,1つのHSI-SRの繰り返し精製構造を持つESSA注目組込みトランスフォーマネットワークであるESSAformerを提案する。
論文 参考訳(メタデータ) (2023-07-26T07:45:14Z) - Unifying Top-down and Bottom-up Scanpath Prediction Using Transformers [40.27531644565077]
本研究では,注意制御の両形態を予測する単一モデルであるヒューマン・アテンション・トランスフォーマー(HAT)を提案する。
HATは、有効性、一般性、解釈可能性を強調する、計算的注意の新たな標準を定めている。
論文 参考訳(メタデータ) (2023-03-16T15:13:09Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。