論文の概要: Exploiting Information Redundancy in Attention Maps for Extreme Quantization of Vision Transformers
- arxiv url: http://arxiv.org/abs/2508.16311v1
- Date: Fri, 22 Aug 2025 11:43:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.371669
- Title: Exploiting Information Redundancy in Attention Maps for Extreme Quantization of Vision Transformers
- Title(参考訳): 視覚変換器の極端量子化のためのアテンションマップの情報冗長化
- Authors: Lucas Maisonnave, Karim Haroun, Tom Pegeot,
- Abstract要約: 我々は,アテンションマップにおける情報冗長性を解析・活用し,モデル推論を高速化する。
シャノンエントロピーを用いて各アテンションヘッドが捉えた情報を定量化することにより、低いエントロピーを持つアテンションヘッドがより少ない情報に寄与することを示した。
本研究では,低エントロピーアテンションマップの重み付けを凍結し,これらの値を低精度に定量化して冗長再計算を回避するモデルであるエントロピーアテンションマップ(EAM)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformer models rely on Multi-Head Self-Attention (MHSA) mechanisms, where each attention head contributes to the final representation. However, their computational complexity and high memory demands due to MHSA hinders their deployment at the edge. In this work, we analyze and exploit information redundancy in attention maps to accelerate model inference. By quantifying the information captured by each attention head using Shannon entropy, our analysis reveals that attention heads with lower entropy, i.e., exhibiting more deterministic behavior, tend to contribute less information, motivating targeted compression strategies. Relying on these insights, we propose Entropy Attention Maps (EAM), a model that freezes the weights of low-entropy attention maps and quantizes these values to low precision to avoid redundant re-computation. Empirical validation on ImageNet-1k shows that EAM achieves similar or higher accuracy at $\leq$20\% sparsity in attention maps and competitive performance beyond this level for the DeiT and Swin Transformer models.
- Abstract(参考訳): トランスフォーマーモデルはMHSA(Multi-Head Self-Attention)機構に依存しており、各アテンションヘッドが最終表現に寄与する。
しかし、MHSAによる計算複雑性と高いメモリ要求は、エッジでのデプロイメントを妨げる。
本研究では,アテンションマップにおける情報冗長性を解析・活用し,モデル推論を高速化する。
シャノンエントロピー(Shannon entropy)を用いて各アテンションヘッドが捉えた情報を定量化することにより、アテンションヘッドが低いエントロピー、すなわちより決定論的行動を示し、より少ない情報に寄与し、目標とする圧縮戦略を動機付けていることを明らかにする。
これらの知見に基づいて、低エントロピー注意マップの重みを凍結し、これらの値を低精度に定量化し、冗長な再計算を避けるモデルであるエントロピー注意マップ(EAM)を提案する。
ImageNet-1kの実証検証では、EAMは注意マップにおける$\leq$20\%の間隔で類似またはより高い精度を達成し、DeiTおよびSwin Transformerモデルのこのレベルを超える競争性能を実現している。
関連論文リスト
- From Fake Focus to Real Precision: Confusion-Driven Adversarial Attention Learning in Transformers [0.0]
トランスフォーマーに基づくモデルが感情分析タスクに広く採用されている。
既存のモデルでは、主に一般的な単語に注意を向ける傾向があり、あまり人気がないがタスク関連性の高い用語を見越す傾向にある。
そこで本研究では,注意重みを適切な焦点に自動的に再分配する,AFA(Adversarial Feedback for Attention)トレーニング機構を提案する。
論文 参考訳(メタデータ) (2025-12-19T01:48:25Z) - RefAM: Attention Magnets for Zero-Shot Referral Segmentation [103.98022860792504]
本稿では,下流タスクの拡散変換器から特徴,注意点を活用できる新しい手法を提案する。
重要な洞察は、停止語は注意磁石として機能するということだ。
停止語を付加した背景アクティベーションを小さなクラスタに分割するアテンション再分配戦略を提案する。
論文 参考訳(メタデータ) (2025-09-26T17:59:57Z) - SAS: Simulated Attention Score [75.1409882298863]
我々は,多数の注目ヘッドと1頭あたりの隠れ特徴次元をシミュレートしながら,コンパクトなモデルサイズを維持するSAS(Simulated Attention Score)を導入する。
各種データセットとタスクに関する総合的な実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-07-10T12:16:16Z) - Mechanistic Interpretability of GPT-like Models on Summarization Tasks [2.4022340214033915]
本稿では,GPTライクなモデルが要約タスクにどのように適応するかを解析するための解釈可能性フレームワークを提案する。
重要な変換を行う特定のレイヤとアテンションヘッドを識別することにより、モデルアーキテクチャ内の"要約回路"を見つける。
論文 参考訳(メタデータ) (2025-05-20T02:15:11Z) - Improving Image Clustering with Artifacts Attenuation via Inference-Time Attention Engineering [1.8786950286587742]
モデルのサイズが大きくなるにつれて、マルチヘッドアテンションのパッチにハイノームアーティファクトが異常に現れる。
推論中に注意関数を操作するITAE(Inference-Time Attention Engineering)を提案する。
ITAEは、複数のデータセットのクラスタリング精度を改善し、潜在空間でより表現力のある機能を示す。
論文 参考訳(メタデータ) (2024-10-07T07:26:10Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - MimiQ: Low-Bit Data-Free Quantization of Vision Transformers with Encouraging Inter-Head Attention Similarity [32.532780329341186]
データフリー量子化(DFQ)は、元のトレーニングデータなしで、しばしば合成データセットを通じて、フル精度のネットワークから軽量なネットワークを作成するテクニックである。
視覚変換器(ViT)アーキテクチャにはいくつかのDFQ法が提案されているが、低ビット設定では有効性は得られていない。
そこで我々は,視覚障害者のための新しいDFQ手法であるMimiQを考案した。
論文 参考訳(メタデータ) (2024-07-29T13:57:40Z) - ESSAformer: Efficient Transformer for Hyperspectral Image
Super-resolution [76.7408734079706]
単一ハイパースペクトル像超解像(単一HSI-SR)は、低分解能観測から高分解能ハイパースペクトル像を復元することを目的としている。
本稿では,1つのHSI-SRの繰り返し精製構造を持つESSA注目組込みトランスフォーマネットワークであるESSAformerを提案する。
論文 参考訳(メタデータ) (2023-07-26T07:45:14Z) - Unifying Top-down and Bottom-up Scanpath Prediction Using Transformers [40.27531644565077]
本研究では,注意制御の両形態を予測する単一モデルであるヒューマン・アテンション・トランスフォーマー(HAT)を提案する。
HATは、有効性、一般性、解釈可能性を強調する、計算的注意の新たな標準を定めている。
論文 参考訳(メタデータ) (2023-03-16T15:13:09Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。