論文の概要: Fast Vision Transformers with HiLo Attention
- arxiv url: http://arxiv.org/abs/2205.13213v1
- Date: Thu, 26 May 2022 08:16:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-28 03:42:42.580276
- Title: Fast Vision Transformers with HiLo Attention
- Title(参考訳): HiLoアテンションを用いた高速ビジョントランス
- Authors: Zizheng Pan, Jianfei Cai, Bohan Zhuang
- Abstract要約: ビジョントランスフォーマー(ViT)はコンピュータビジョンにおける最新の重要なブレークスルーを引き起こしている。
LITv2は、既存の最先端手法に対して良好に機能する、シンプルで効果的なViTである。
HiLoによってパワーアップされたLITv2は、画像分類、高密度検出、セグメンテーションを含むメインストリームの視覚タスクの強力なバックボーンとして機能する。
- 参考スコア(独自算出の注目度): 40.8842135978138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) have triggered the most recent and significant
breakthroughs in computer vision. Their efficient designs are mostly guided by
the indirect metric of computational complexity, i.e., FLOPs, which however has
a clear gap with the direct metric such as throughput. Thus, we propose to use
the direct speed evaluation on the target platform as the design principle for
efficient ViTs. Particularly, we introduce LITv2, a simple and effective ViT
which performs favourably against the existing state-of-the-art methods across
a spectrum of different model sizes with faster speed. At the core of LITv2 is
a novel self-attention mechanism, which we dub HiLo. HiLo is inspired by the
insight that high frequencies in an image capture local fine details and low
frequencies focus on global structures, whereas a multi-head self-attention
layer neglects the characteristic of different frequencies. Therefore, we
propose to disentangle the high/low frequency patterns in an attention layer by
separating the heads into two groups, where one group encodes high frequencies
via self-attention within each local window, and another group performs the
attention to model the global relationship between the average-pooled
low-frequency keys from each window and each query position in the input
feature map. Benefit from the efficient design for both groups, we show that
HiLo is superior to the existing attention mechanisms by comprehensively
benchmarking on FLOPs, speed and memory consumption on GPUs. Powered by HiLo,
LITv2 serves as a strong backbone for mainstream vision tasks including image
classification, dense detection and segmentation. Code is available at
https://github.com/zip-group/LITv2.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)はコンピュータビジョンにおける最新の重要なブレークスルーを引き起こしている。
彼らの効率的な設計は、主に計算複雑性の間接メートル法、すなわちFLOPによって導かれるが、スループットのような直接メートル法と明確なギャップがある。
そこで本稿では,効率的なViTの設計原理として,ターゲットプラットフォーム上での直接速度評価を提案する。
特に,より高速なモデルサイズで,既存の最先端手法に対して良好に動作可能な,シンプルで効果的なViTであるLITv2を紹介する。
LITv2の中核は、HiLoをダブする新しい自己保持機構である。
HiLoは、画像中の高頻度が局所的な細部を捉え、低頻度がグローバル構造に焦点をあてているという洞察にインスパイアされている。
そこで,本研究では,頭部を2つのグループに分割し,各ウィンドウ内における自己注意によって高頻度を符号化し,各ウィンドウ内における平均低周波鍵と入力特徴マップ内の各クエリ位置とのグローバルな関係をモデル化する手法を提案する。
両グループの効率的な設計から, FLOP, 速度, メモリ消費を総合的にベンチマークすることで, HiLo は既存の注意機構よりも優れていることを示す。
hiloを搭載したlitv2は、画像分類、高密度検出、セグメンテーションなど、主要なビジョンタスクのバックボーンとして機能する。
コードはhttps://github.com/zip-group/litv2で入手できる。
関連論文リスト
- An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - FasterViT: Fast Vision Transformers with Hierarchical Attention [63.50580266223651]
我々は、コンピュータビジョン(CV)アプリケーションのための高速スループットに焦点を当てた、FasterViTという名前のハイブリッドCNN-ViTニューラルネットワークの新たなファミリーを設計する。
新たに導入した階層的注意(HAT)アプローチは,グローバルな自己意識を2次複雑性で分解し,計算コストを削減した多面的注意に分解する。
論文 参考訳(メタデータ) (2023-06-09T18:41:37Z) - Castling-ViT: Compressing Self-Attention via Switching Towards Linear-Angular Attention at Vision Transformer Inference [33.69340426607746]
視覚変換器(ViT)は優れた性能を示しているが、畳み込みニューラルネットワーク(CNN)と比較して計算コストは高い。
既存の効率的なViTは局所的な注意(例えば、スウィン)または線形の注意(例えば、Performer)を採用する。
線形角の注意とマスキングソフトマックスに基づく二次の注意の両方を用いてViTを訓練するCastling-ViTというフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-18T22:49:04Z) - Green Hierarchical Vision Transformer for Masked Image Modeling [54.14989750044489]
階層型視覚変換器(ViT)を用いたマスク付き画像モデリングのための効率的な手法を提案する。
グループウィンドウのアテンションスキームは,ディバイド・アンド・コンカエ戦略に従って設計する。
グループ化されたパッチに対する注意の全体的なコストを最小限に抑えるため、動的プログラミングアルゴリズムによるグループ化戦略をさらに改善する。
論文 参考訳(メタデータ) (2022-05-26T17:34:42Z) - Inception Transformer [151.939077819196]
インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。
我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-05-25T17:59:54Z) - Anti-Oversmoothing in Deep Vision Transformers via the Fourier Domain
Analysis: From Theory to Practice [111.47461527901318]
Vision Transformer (ViT) は先日,コンピュータビジョン問題における有望性を実証した。
ViTは観察された注意崩壊やパッチの均一性のために、深さが増加するにつれて急速に飽和する。
所望の低域制限を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2022-03-09T23:55:24Z) - Learned Queries for Efficient Local Attention [11.123272845092611]
視覚変換器の自己保持機構は、高レイテンシと非効率なメモリ利用に悩まされる。
本稿では,クエリ・アンド・アテンション(QnA)と呼ばれる,新たなシフト不変なローカルアテンション層を提案する。
我々は、最先端モデルと同等の精度を達成しつつ、スピードとメモリの複雑さの改善を示す。
論文 参考訳(メタデータ) (2021-12-21T18:52:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。