論文の概要: ELSA: Enhanced Local Self-Attention for Vision Transformer
- arxiv url: http://arxiv.org/abs/2112.12786v1
- Date: Thu, 23 Dec 2021 18:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-24 16:17:40.327328
- Title: ELSA: Enhanced Local Self-Attention for Vision Transformer
- Title(参考訳): ELSA:ビジョントランスのためのローカルセルフアテンション強化
- Authors: Jingkai Zhou and Pichao Wang and Fan Wang and Qiong Liu and Hao Li and
Rong Jin
- Abstract要約: セルフアテンションは、長距離依存のモデリングには強力だが、局所的なきめ細かい特徴学習では弱い。
本研究では,アダマール・アテンションとゴースト・ヘッドを併用した拡張型局所自己注意(ELSA)を提案する。
ELSA は COCO の +1.9 ボックス Ap / +1.3 マスク Ap と ADE20K の +1.9 mIoU のベースラインを大幅に改善する。
- 参考スコア(独自算出の注目度): 45.57666392349274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-attention is powerful in modeling long-range dependencies, but it is
weak in local finer-level feature learning. The performance of local
self-attention (LSA) is just on par with convolution and inferior to dynamic
filters, which puzzles researchers on whether to use LSA or its counterparts,
which one is better, and what makes LSA mediocre. To clarify these, we
comprehensively investigate LSA and its counterparts from two sides:
\emph{channel setting} and \emph{spatial processing}. We find that the devil
lies in the generation and application of spatial attention, where relative
position embeddings and the neighboring filter application are key factors.
Based on these findings, we propose the enhanced local self-attention (ELSA)
with Hadamard attention and the ghost head. Hadamard attention introduces the
Hadamard product to efficiently generate attention in the neighboring case,
while maintaining the high-order mapping. The ghost head combines attention
maps with static matrices to increase channel capacity. Experiments demonstrate
the effectiveness of ELSA. Without architecture / hyperparameter modification,
drop-in replacing LSA with ELSA boosts Swin Transformer \cite{swin} by up to
+1.4 on top-1 accuracy. ELSA also consistently benefits VOLO \cite{volo} from
D1 to D5, where ELSA-VOLO-D5 achieves 87.2 on the ImageNet-1K without extra
training images. In addition, we evaluate ELSA in downstream tasks. ELSA
significantly improves the baseline by up to +1.9 box Ap / +1.3 mask Ap on the
COCO, and by up to +1.9 mIoU on the ADE20K. Code is available at
\url{https://github.com/damo-cv/ELSA}.
- Abstract(参考訳): セルフアテンションは長距離依存のモデリングには強力だが、局所的なきめ細かい特徴学習では弱い。
局所自己注意(LSA)の性能は、畳み込みに匹敵するものであり、動的フィルタに劣る。
これらを明らかにするために, LSA と LSA の2つの側面である \emph{ channel setting} と \emph{spatial processing} を包括的に検討した。
相対的な位置埋め込みと隣り合うフィルタの適用が重要な要因である空間的注意の生成と応用に悪魔が存在することが分かる。
そこで本研究では,アダマールの注意とゴーストヘッドを併用した局所自己注意(ELSA)を提案する。
アダマールの注意は、高次マッピングを維持しながら、近隣のケースで効率的に注意を喚起するためにアダマール製品を導入する。
ゴーストヘッドは、チャンネル容量を増やすためにアテンションマップと静的行列を組み合わせる。
実験はELSAの有効性を示す。
アーキテクチャやハイパーパラメータを変更することなく、LSAをELSAに置き換えることで、トップ1の精度でSwin Transformer \cite{swin}を最大1.4アップする。
ELSA は D1 から D5 へのVOLO \cite{volo} の恩恵も一貫して受けており、この場合 ELSA-VOLO-D5 は 87.2 を ImageNet-1K 上で追加の訓練画像なしで達成している。
さらに,下流タスクにおけるELSAの評価を行った。
ELSA は COCO の +1.9 ボックス Ap / +1.3 マスク Ap と ADE20K の +1.9 mIoU のベースラインを大幅に改善する。
コードは \url{https://github.com/damo-cv/elsa} で入手できる。
関連論文リスト
- Breaking the Low-Rank Dilemma of Linear Attention [61.55583836370135]
線形注意(linear attention)は、複雑性を線形レベルに還元することで、はるかに効率的なソリューションを提供する。
実験により, この性能低下は, 線形アテンションの特徴マップの低ランク性に起因することが示唆された。
我々は,線形複雑性と高効率を維持しつつ,Softmaxの注目性能に匹敵するランク拡張線形注意(RALA)を導入する。
論文 参考訳(メタデータ) (2024-11-12T08:30:59Z) - Evaluating Open-Source Sparse Autoencoders on Disentangling Factual Knowledge in GPT-2 Small [6.306964287762374]
我々は、GPT-2小の隠れ表現を訓練したSAEが、その都市がどの国にあり、どの大陸にあるかを知るための一連の特徴を持っているかどうかを評価する。
以上の結果から,SAEはニューロンベースラインに到達するのに苦慮しており,DASスカイラインに近づかないことが明らかとなった。
論文 参考訳(メタデータ) (2024-09-05T18:00:37Z) - Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU Sparse Autoencoders [4.4110204540437365]
本研究では, Gemma 2 9Bアクティベーションにおいて, 所定の空間レベルにおいて, 最先端の再現忠実性を実現するJumpReLU SAEを紹介する。
この改善は、手動および自動解釈可能性研究による解釈可能性のコストを伴わないことを示す。
論文 参考訳(メタデータ) (2024-07-19T16:07:19Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - Vision Transformer with Attention Map Hallucination and FFN Compaction [63.44499994227798]
空白を埋めるために,注意マップの幻覚とFFNのコンパクト化を提案する。
具体的には、バニラVITに存在する類似の注意マップを観察し、残りの注意マップの半分を幻覚させることを提案する。
提案するモジュールでは,様々なViTベースのバックボーンに対して,浮動小数点演算(FLOP)とパラメータ(Param)の10$%-20$%の削減を実現している。
論文 参考訳(メタデータ) (2023-06-19T12:08:55Z) - Vision Transformer with Super Token Sampling [93.70963123497327]
多くの視覚タスクにおいて、視覚変換器は印象的なパフォーマンスを達成した。
浅い層のために局所的な特徴を捉える際に、高い冗長性に悩まされる可能性がある。
スーパートークンは、視覚的コンテンツの意味的に意味のあるテッセルレーションを提供しようとする。
論文 参考訳(メタデータ) (2022-11-21T03:48:13Z) - ViT-LSLA: Vision Transformer with Light Self-Limited-Attention [4.903718320156974]
本稿では,計算コストとパラメータ数の削減を目的とした軽量自己拘束機構(LSA)と,性能向上のための自己拘束機構(SLA)からなる軽量自己拘束機構(LSLA)を提案する。
ViT-LSLAはIP102では71.6%、Mini-ImageNetでは87.2%である。
論文 参考訳(メタデータ) (2022-10-31T07:46:45Z) - SMYRF: Efficient Attention using Asymmetric Clustering [103.47647577048782]
本稿では,注目度を近似する新しいタイプのバランスクラスタリングアルゴリズムを提案する。
SMYRFは、再トレーニングすることなく、高密度の注意層をドロップインで置き換えることができる。
SMYRFは,訓練前後の集中的注意と相互に使用できることが示唆された。
論文 参考訳(メタデータ) (2020-10-11T18:49:17Z) - Axial-DeepLab: Stand-Alone Axial-Attention for Panoptic Segmentation [35.61291788072914]
セルフアテンションは、非局所的な相互作用を持つCNNを増強するために採用されている。
最近の研究は、完全な注意ネットワークを得るために自己注意層を積み重ねることが可能であることを証明している。
本稿では,2次元自己注意を2つの1次元自己注意に分解することを提案する。
これにより複雑さを低減し、大規模あるいはグローバルな領域内で注意を向けることが可能になる。
論文 参考訳(メタデータ) (2020-03-17T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。