論文の概要: Learned Queries for Efficient Local Attention
- arxiv url: http://arxiv.org/abs/2112.11435v1
- Date: Tue, 21 Dec 2021 18:52:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-22 15:30:29.165472
- Title: Learned Queries for Efficient Local Attention
- Title(参考訳): 効率的な局所的注意のための学習クエリ
- Authors: Moab Arar, Ariel Shamir, Amit H. Bermano
- Abstract要約: 視覚変換器の自己保持機構は、高レイテンシと非効率なメモリ利用に悩まされる。
本稿では,クエリ・アンド・アテンション(QnA)と呼ばれる,新たなシフト不変なローカルアテンション層を提案する。
我々は、最先端モデルと同等の精度を達成しつつ、スピードとメモリの複雑さの改善を示す。
- 参考スコア(独自算出の注目度): 11.123272845092611
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViT) serve as powerful vision models. Unlike
convolutional neural networks, which dominated vision research in previous
years, vision transformers enjoy the ability to capture long-range dependencies
in the data. Nonetheless, an integral part of any transformer architecture, the
self-attention mechanism, suffers from high latency and inefficient memory
utilization, making it less suitable for high-resolution input images. To
alleviate these shortcomings, hierarchical vision models locally employ
self-attention on non-interleaving windows. This relaxation reduces the
complexity to be linear in the input size; however, it limits the cross-window
interaction, hurting the model performance. In this paper, we propose a new
shift-invariant local attention layer, called query and attend (QnA), that
aggregates the input locally in an overlapping manner, much like convolutions.
The key idea behind QnA is to introduce learned queries, which allow fast and
efficient implementation. We verify the effectiveness of our layer by
incorporating it into a hierarchical vision transformer model. We show
improvements in speed and memory complexity while achieving comparable accuracy
with state-of-the-art models. Finally, our layer scales especially well with
window size, requiring up-to x10 less memory while being up-to x5 faster than
existing methods.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は強力なビジョンモデルとして機能する。
前年に視覚研究を支配した畳み込みニューラルネットワークとは異なり、視覚トランスフォーマーはデータの長距離依存性を捉えることができる。
それでも、任意のトランスフォーマーアーキテクチャの不可欠な部分であるセルフアテンション機構は、高レイテンシと非効率なメモリ使用に苦しむため、高解像度の入力画像には適さない。
これらの欠点を軽減するため、階層型視覚モデルは非インターリーブウィンドウ上で局所的に自己注意を用いる。
この緩和により、入力サイズが線形になる複雑さは減少するが、ウィンドウ間相互作用が制限され、モデルの性能が損なわれる。
本稿では,畳み込みのように局所的に入力を集約する「クエリ・アンド・アサート(qna)」と呼ばれる新しいシフト不変局所注意層を提案する。
QnAの主な考え方は、高速で効率的な実装を可能にする学習クエリの導入である。
階層型視覚変換器モデルに組み込むことで,我々の層の有効性を検証する。
最先端モデルと同等の精度を実現しつつ、速度とメモリの複雑さを改善した。
最後に、私たちのレイヤは特にウィンドウサイズでスケールし、既存のメソッドよりもx5までのメモリを最大10倍削減します。
関連論文リスト
- DRCT: Saving Image Super-resolution away from Information Bottleneck [7.765333471208582]
低レベルのビジョンタスクに対するビジョントランスフォーマーベースのアプローチは、広く成功している。
空間情報の損失を軽減するため,Dense-Residual-Connected Transformer (DRCT)を提案する。
提案手法は,ベンチマークデータセットの最先端手法を超越した手法である。
論文 参考訳(メタデータ) (2024-03-31T15:34:45Z) - Factorization Vision Transformer: Modeling Long Range Dependency with
Local Window Cost [25.67071603343174]
本稿では,ローカルウィンドウコストと長期依存性モデリング機能の両方の利点を享受できる因子分解自己注意機構を提案する。
FaViTは、入力画像空間分解能に関する線形計算複雑性により、高い性能とロバスト性を達成する。
FaViT-B2は, モデルパラメータを14%削減しつつ, 分類精度を1%, 頑健性を7%向上させる。
論文 参考訳(メタデータ) (2023-12-14T02:38:12Z) - Laplacian-Former: Overcoming the Limitations of Vision Transformers in
Local Texture Detection [3.784298636620067]
Vision Transformer (ViT) モデルは、幅広いコンピュータビジョンタスクにおいてブレークスルーを実証している。
これらのモデルは、画像の高周波成分を捉えるのに苦労しており、局所的なテクスチャやエッジ情報を検出する能力を制限することができる。
本稿では,ラプラシアンピラミッド内の周波数情報を適応的に補正することで自己注意マップを向上する新しい手法であるラプラシアン・フォーマーを提案する。
論文 参考訳(メタデータ) (2023-08-31T19:56:14Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Dynamic Spatial Sparsification for Efficient Vision Transformers and
Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。
本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。
提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文 参考訳(メタデータ) (2022-07-04T17:00:51Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Local-to-Global Self-Attention in Vision Transformers [130.0369761612812]
トランスフォーマーはコンピュータビジョンタスクに大きな可能性を示した。
最近のTransformerモデルは階層設計を採用しており、セルフアテンションはローカルウィンドウ内でのみ計算される。
この設計は効率を大幅に改善するが、早い段階ではグローバルな特徴推論が欠如している。
本研究では,トランスフォーマーのマルチパス構造を設計し,各ステージにおける複数の粒度での局所的・言語的推論を可能にする。
論文 参考訳(メタデータ) (2021-07-10T02:34:55Z) - Vision Xformers: Efficient Attention for Image Classification [0.0]
我々は、2次注意を効率的な変換器に置き換えることで、より長いシーケンスデータを扱うためにViTアーキテクチャを変更した。
また,より少ない計算資源を消費する画像分類において,ViXはViTよりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-07-05T19:24:23Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。