論文の概要: Hydra Attention: Efficient Attention with Many Heads
- arxiv url: http://arxiv.org/abs/2209.07484v1
- Date: Thu, 15 Sep 2022 17:27:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 13:05:00.885827
- Title: Hydra Attention: Efficient Attention with Many Heads
- Title(参考訳): hydra attention: 多くの頭で効率的な注意
- Authors: Daniel Bolya, Cheng-Yang Fu, Xiaoliang Dai, Peizhao Zhang, Judy
Hoffman
- Abstract要約: Hydra Attentionは視覚変換器(ViT)の効率的な注意操作である
トークンカウントの因子によって、市販のViT-B/16の通常の自己アテンションよりもはるかに高速である。
ImageNetでは高い精度を維持しており、場合によっては実際に改善されている。
- 参考スコア(独自算出の注目度): 21.208375585779663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While transformers have begun to dominate many tasks in vision, applying them
to large images is still computationally difficult. A large reason for this is
that self-attention scales quadratically with the number of tokens, which in
turn, scales quadratically with the image size. On larger images (e.g., 1080p),
over 60% of the total computation in the network is spent solely on creating
and applying attention matrices. We take a step toward solving this issue by
introducing Hydra Attention, an extremely efficient attention operation for
Vision Transformers (ViTs). Paradoxically, this efficiency comes from taking
multi-head attention to its extreme: by using as many attention heads as there
are features, Hydra Attention is computationally linear in both tokens and
features with no hidden constants, making it significantly faster than standard
self-attention in an off-the-shelf ViT-B/16 by a factor of the token count.
Moreover, Hydra Attention retains high accuracy on ImageNet and, in some cases,
actually improves it.
- Abstract(参考訳): トランスフォーマーは視覚の多くのタスクを支配し始めているが、大きな画像に適用することは依然として計算が難しい。
この大きな理由は、自己注意はトークンの数で2乗スケールし、結果として画像サイズで2乗スケールするからである。
より大きな画像(例えば1080p)では、ネットワーク全体の計算の60%以上が注意行列の作成と適用に費やされている。
我々は、視覚トランスフォーマー(vits)の極めて効率的な注意操作であるhydra attentionを導入することで、この問題を解決するための一歩を踏み出す。
パラドックス的に、この効率性はマルチヘッドの注意を極端に下げることからもたらされる: 特徴がある限り多くの注意ヘッドを使用することで、ハイドラの注意は、トークンと特徴の両方において計算的に線形であり、隠れた定数を持たない。
さらに、Hydra AttentionはImageNet上で高い精度を維持し、場合によっては実際にそれを改善する。
関連論文リスト
- You Only Need Less Attention at Each Stage in Vision Transformers [19.660385306028047]
ViT(Vision Transformer)は、自己認識モジュールを通じて画像のグローバルな情報をキャプチャする。
本稿では,各段階の注意操作のみを演算するLose-Attention Vision Transformer (LaViT)を提案する。
我々のアーキテクチャは、分類、検出、セグメンテーションを含む様々な視覚タスクにおいて、例外的な性能を示す。
論文 参考訳(メタデータ) (2024-06-01T12:49:16Z) - Agent Attention: On the Integration of Softmax and Linear Attention [70.06472039237354]
本稿では,計算効率と表現力のバランスをとるために,新しい注意パラダイムであるエージェント注意(Agent Attention)を提案する。
提案するエージェントアテンションは,線形アテンションの一般化形式と等価であることを示す。
特に、エージェントの注意は高解像度のシナリオにおいて顕著な性能を示しており、その線形の注意の性質に依拠している。
論文 参考訳(メタデータ) (2023-12-14T16:26:29Z) - Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing
Important Tokens [65.4435926060951]
本稿では,超長周期の変換器の効率を,各層でより小さな表現に圧縮することで向上することを提案する。
我々のアルゴリズムは効率的であるだけでなく(4Kと16Kのベースラインに比べて3倍以上の効率向上を達成する)、多数のタスクで競合/ベターパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-05-07T10:32:18Z) - Vision Transformer with Super Token Sampling [93.70963123497327]
多くの視覚タスクにおいて、視覚変換器は印象的なパフォーマンスを達成した。
浅い層のために局所的な特徴を捉える際に、高い冗長性に悩まされる可能性がある。
スーパートークンは、視覚的コンテンツの意味的に意味のあるテッセルレーションを提供しようとする。
論文 参考訳(メタデータ) (2022-11-21T03:48:13Z) - Accumulated Trivial Attention Matters in Vision Transformers on Small
Datasets [25.041489334839117]
我々は、畳み込みニューラルネットワークと比較して、グローバルな注意力の計算が別の不利をもたらすことを示す。
そこで我々は,注意重みを,自明かつ非自明なものに閾値で分割し,その上で,累積トライビタルアテンション(SATA)重みを抑えることを提案する。
本手法は視覚変換器の精度を最大2.3%向上させる。
論文 参考訳(メタデータ) (2022-10-22T02:34:17Z) - MaiT: Leverage Attention Masks for More Efficient Image Transformers [4.400421753565953]
Masked attention image Transformer - MaiTでは、パラメータやFLOPが少ないCaiTと比較してトップ1の精度が最大1.7%向上し、Swinに比べてスループットが1.5倍向上した。
論文 参考訳(メタデータ) (2022-07-06T22:42:34Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - KVT: k-NN Attention for Boosting Vision Transformers [44.189475770152185]
我々は、視力変換器の強化を目的とした、k-NNアテンションと呼ばれるスパースアテンション方式を提案する。
提案したk-NNアテンションは、畳み込み操作を導入することなくCNNの局所バイアスを自然に継承する。
理論的にも経験的にも、$k$-NNの注意力は入力トークンからのノイズの蒸留やトレーニングの高速化に有効である。
論文 参考訳(メタデータ) (2021-05-28T06:49:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。