論文の概要: Static Key Attention in Vision
- arxiv url: http://arxiv.org/abs/2412.07049v1
- Date: Mon, 09 Dec 2024 23:18:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:37:24.724277
- Title: Static Key Attention in Vision
- Title(参考訳): 視覚における静的キーアテンション
- Authors: Zizhao Hu, Xiaolin Zhou, Mohammad Rostami,
- Abstract要約: 視覚変換器の標準アテンション機構において,動的パラメータ化キーと静的キーとを置換した場合の影響について検討する。
以上の結果から,静的キーアテンション機構は,通常の自己注意機能と一致したり,超えたりする可能性が示唆された。
- 参考スコア(独自算出の注目度): 19.014373531742297
- License:
- Abstract: The success of vision transformers is widely attributed to the expressive power of their dynamically parameterized multi-head self-attention mechanism. We examine the impact of substituting the dynamic parameterized key with a static key within the standard attention mechanism in Vision Transformers. Our findings reveal that static key attention mechanisms can match or even exceed the performance of standard self-attention. Integrating static key attention modules into a Metaformer backbone, we find that it serves as a better intermediate stage in hierarchical hybrid architectures, balancing the strengths of depth-wise convolution and self-attention. Experiments on several vision tasks underscore the effectiveness of the static key mechanism, indicating that the typical two-step dynamic parameterization in attention can be streamlined to a single step without impacting performance under certain circumstances.
- Abstract(参考訳): 視覚変換器の成功は、動的パラメータ化マルチヘッド自己保持機構の表現力に大きく影響している。
視覚変換器の標準アテンション機構において,動的パラメータ化キーと静的キーとを置換した場合の影響について検討する。
以上の結果から,静的キーアテンション機構は,通常の自己注意機能と一致したり,超えたりする可能性が示唆された。
静的キーアテンションモジュールをMetaformerのバックボーンに統合することで、階層型ハイブリッドアーキテクチャにおいて、より優れた中間段階として機能し、奥行き的な畳み込みと自己注意の強みのバランスをとることができる。
いくつかの視覚タスクの実験では、静的キー機構の有効性が示されており、特定の状況下での性能に影響を与えることなく、注意すべき2ステップの動的パラメータ化を単一のステップに合理化できることが示されている。
関連論文リスト
- Scaled and Inter-token Relation Enhanced Transformer for Sample-restricted Residential NILM [0.0]
本稿では,2つの革新点を持つトランスフォーマーアーキテクチャを提案する。
提案手法をREDDデータセット上で検証し, 各種アプライアンスに対してF1スコアを10~15%向上させる結果を得た。
論文 参考訳(メタデータ) (2024-10-12T18:58:45Z) - DualAD: Disentangling the Dynamic and Static World for End-to-End Driving [11.379456277711379]
自動運転のための最先端のアプローチは、全体運転タスクの複数のサブタスクを単一のパイプラインに統合する。
動的エージェントと静的シーン要素を分離する専用表現を提案する。
DualADというタイトルの手法は、独立に訓練されたシングルタスクネットワークよりも優れています。
論文 参考訳(メタデータ) (2024-06-10T13:46:07Z) - Towards Robust Semantic Segmentation against Patch-based Attack via Attention Refinement [68.31147013783387]
我々は,アテンション機構がパッチベースの敵攻撃に弱いことを観察した。
本稿では,意味的セグメンテーションモデルの堅牢性を改善するために,ロバスト注意機構(RAM)を提案する。
論文 参考訳(メタデータ) (2024-01-03T13:58:35Z) - On the Optimization and Generalization of Multi-head Attention [28.33164313549433]
マルチアテンションヘッドを用いた場合の潜在的な最適化と一般化の利点について検討する。
単層多層自己アテンションモデルの勾配差学習における収束と一般化の保証を導出する。
論文 参考訳(メタデータ) (2023-10-19T12:18:24Z) - Accelerating Vision Transformers Based on Heterogeneous Attention
Patterns [89.86293867174324]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの分野で多くの注目を集めている。
層間における異種注意パターンの観測に基づく統合圧縮パイプラインを提案する。
実験的に、DGSSAとGLADの統合圧縮パイプラインは、最大121%のランタイムスループットを加速することができる。
論文 参考訳(メタデータ) (2023-10-11T17:09:19Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - Adaptive Sparse and Monotonic Attention for Transformer-based Automatic
Speech Recognition [32.45255303465946]
本稿では,Transformer ベースの ASR にスパースアテンションとモノトニックアテンションを導入する。
提案手法は,広く使用されている音声認識のベンチマークにおいて,注意機構を効果的に改善できることを示す。
論文 参考訳(メタデータ) (2022-09-30T01:55:57Z) - Understanding The Robustness in Vision Transformers [140.1090560977082]
自己注意は、改善された中レベルの表現を通して堅牢性を促進する。
我々は、この能力を強化するために、フルアテンショナルネットワーク(FAN)のファミリーを提案する。
我々のモデルは、76.8Mパラメータを持つImageNet-1kおよびImageNet-C上で、最先端の87.1%の精度と35.8%のmCEを達成する。
論文 参考訳(メタデータ) (2022-04-26T17:16:32Z) - Visualizing and Understanding Patch Interactions in Vision Transformer [96.70401478061076]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。
本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T13:48:11Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。