論文の概要: Armour: Generalizable Compact Self-Attention for Vision Transformers
- arxiv url: http://arxiv.org/abs/2108.01778v1
- Date: Tue, 3 Aug 2021 22:33:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 23:52:53.636024
- Title: Armour: Generalizable Compact Self-Attention for Vision Transformers
- Title(参考訳): armour:視覚トランスフォーマーのための汎用コンパクトセルフアテンション
- Authors: Lingchuan Meng
- Abstract要約: 本稿では, 基本的かつ高度に一般化可能な, コンパクトな自己認識機構を提案する。
本稿では,視覚変換器における通常の注意機構と最近の変種の両方に適用可能性を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention-based transformer networks have demonstrated promising potential as
their applications extend from natural language processing to vision. However,
despite the recent improvements, such as sub-quadratic attention approximation
and various training enhancements, the compact vision transformers to date
using the regular attention still fall short in comparison with its convnet
counterparts, in terms of \textit{accuracy,} \textit{model size}, \textit{and}
\textit{throughput}. This paper introduces a compact self-attention mechanism
that is fundamental and highly generalizable. The proposed method reduces
redundancy and improves efficiency on top of the existing attention
optimizations. We show its drop-in applicability for both the regular attention
mechanism and some most recent variants in vision transformers. As a result, we
produced smaller and faster models with the same or better accuracies.
- Abstract(参考訳): 注意に基づくトランスフォーマーネットワークは、アプリケーションが自然言語処理からビジョンへと広がるにつれて、有望な可能性を実証している。
しかし、サブクアドラルな注意近似や様々なトレーニング強化といった最近の改善にもかかわらず、通常の注意を用いたコンパクトビジョントランスフォーマーは、convnetのものと比べ、 \textit{accuracy,} \textit{model size}, \textit{and} \textit{throughput} という点で比べれば、まだ不足している。
本稿では,基本かつ高一般化したコンパクトな自己着脱機構を提案する。
提案手法は冗長性を低減し,既存の注意最適化に加えて効率を向上させる。
本稿では,視覚変換器における通常の注意機構と最近の変種の両方に適用可能性を示す。
その結果、我々は同じまたはより良い精度でより小さくより高速なモデルを作成しました。
関連論文リスト
- FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - Attention Deficit is Ordered! Fooling Deformable Vision Transformers
with Collaborative Adversarial Patches [3.4673556247932225]
変形可能な視覚変換器は、注意モデリングの複雑さを著しく低減する。
最近の研究は、従来の視覚変換器に対する敵攻撃を実証している。
我々は,対象のパッチに注意を向けるようにソースパッチが操作する新たなコラボレーティブアタックを開発する。
論文 参考訳(メタデータ) (2023-11-21T17:55:46Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - ASSET: Autoregressive Semantic Scene Editing with Transformers at High
Resolutions [28.956280590967808]
私たちのアーキテクチャは、新しい注意機構を備えたトランスフォーマーに基づいています。
我々のキーとなる考え方は、高解像度の画像解像度で抽出された濃密な注意によって導かれる、トランスフォーマーの注意行列を高解像度でスパース化することである。
本手法の有効性を示した質的,定量的な結果とユーザスタディについて述べる。
論文 参考訳(メタデータ) (2022-05-24T17:39:53Z) - Visualizing and Understanding Patch Interactions in Vision Transformer [96.70401478061076]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。
本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T13:48:11Z) - Lite Vision Transformer with Enhanced Self-Attention [39.32480787105232]
2つの拡張自己注意機構を持つ新しい軽量ビジョントランスネットワークLVTを提案する。
低レベルの機能については、CSA(Convolutional Self-Attention)を紹介します。
高次機能のために、再帰的アトラス自己注意(RASA)を提案する。
論文 参考訳(メタデータ) (2021-12-20T19:11:53Z) - AdaViT: Adaptive Vision Transformers for Efficient Image Recognition [78.07924262215181]
AdaViTは、パッチ、セルフアテンションヘッド、およびトランスフォーマーブロックを使用するための利用ポリシーを導出する適応フレームワークである。
本手法は,0.8%の精度で,最先端のビジョントランスに比べて2倍以上の効率向上を実現している。
論文 参考訳(メタデータ) (2021-11-30T18:57:02Z) - Blending Anti-Aliasing into Vision Transformer [57.88274087198552]
不連続なパッチ単位のトークン化プロセスは、ジャッジされたアーティファクトをアテンションマップに暗黙的に導入する。
エイリアス効果は、離散パターンを使用して高周波または連続的な情報を生成し、区別不能な歪みをもたらす。
本稿では,前述の問題を緩和するためのAliasing-Reduction Module(ARM)を提案する。
論文 参考訳(メタデータ) (2021-10-28T14:30:02Z) - Local-to-Global Self-Attention in Vision Transformers [130.0369761612812]
トランスフォーマーはコンピュータビジョンタスクに大きな可能性を示した。
最近のTransformerモデルは階層設計を採用しており、セルフアテンションはローカルウィンドウ内でのみ計算される。
この設計は効率を大幅に改善するが、早い段階ではグローバルな特徴推論が欠如している。
本研究では,トランスフォーマーのマルチパス構造を設計し,各ステージにおける複数の粒度での局所的・言語的推論を可能にする。
論文 参考訳(メタデータ) (2021-07-10T02:34:55Z) - Glance-and-Gaze Vision Transformer [13.77016463781053]
我々は Glance-and-Gaze Transformer (GG-Transformer) という新しい視覚変換器を提案する。
自然の場面で物体を認識するとき、人間のGlance and Gazeの行動によって動機付けられている。
提案手法は,従来の最先端変圧器よりも一貫した性能を実現することを実証的に実証する。
論文 参考訳(メタデータ) (2021-06-04T06:13:47Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。