論文の概要: AdaViT: Adaptive Vision Transformers for Efficient Image Recognition
- arxiv url: http://arxiv.org/abs/2111.15668v1
- Date: Tue, 30 Nov 2021 18:57:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 15:59:02.730024
- Title: AdaViT: Adaptive Vision Transformers for Efficient Image Recognition
- Title(参考訳): adavit:効率的な画像認識のための適応視覚トランスフォーマー
- Authors: Lingchen Meng, Hengduo Li, Bor-Chun Chen, Shiyi Lan, Zuxuan Wu,
Yu-Gang Jiang, Ser-Nam Lim
- Abstract要約: AdaViTは、パッチ、セルフアテンションヘッド、およびトランスフォーマーブロックを使用するための利用ポリシーを導出する適応フレームワークである。
本手法は,0.8%の精度で,最先端のビジョントランスに比べて2倍以上の効率向上を実現している。
- 参考スコア(独自算出の注目度): 78.07924262215181
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Built on top of self-attention mechanisms, vision transformers have
demonstrated remarkable performance on a variety of vision tasks recently.
While achieving excellent performance, they still require relatively intensive
computational cost that scales up drastically as the numbers of patches,
self-attention heads and transformer blocks increase. In this paper, we argue
that due to the large variations among images, their need for modeling
long-range dependencies between patches differ. To this end, we introduce
AdaViT, an adaptive computation framework that learns to derive usage policies
on which patches, self-attention heads and transformer blocks to use throughout
the backbone on a per-input basis, aiming to improve inference efficiency of
vision transformers with a minimal drop of accuracy for image recognition.
Optimized jointly with a transformer backbone in an end-to-end manner, a
light-weight decision network is attached to the backbone to produce decisions
on-the-fly. Extensive experiments on ImageNet demonstrate that our method
obtains more than 2x improvement on efficiency compared to state-of-the-art
vision transformers with only 0.8% drop of accuracy, achieving good
efficiency/accuracy trade-offs conditioned on different computational budgets.
We further conduct quantitative and qualitative analysis on learned usage
polices and provide more insights on the redundancy in vision transformers.
- Abstract(参考訳): 自己注意機構の上に構築された視覚トランスフォーマーは、近年、様々な視覚タスクにおいて顕著な性能を示した。
優れたパフォーマンスを実現する一方で、パッチ数、自己注意ヘッド、トランスフォーマーブロックの増加に伴って劇的にスケールアップする比較的計算コストを必要とする。
本稿では,画像のばらつきが大きいため,パッチ間の長距離依存関係をモデル化する必要性が異なることを論じる。
そこで我々は,画像認識の精度を最小限に抑えつつ,視覚変換器の推論効率を向上させることを目的として,バックボーン全体のパッチ,自己アテンションヘッド,およびトランスフォーマーブロックの使用法を学習する適応型計算フレームワークであるAdaViTを紹介する。
変圧器のバックボーンとエンドツーエンドで協調的に最適化され、バックボーンに軽量な決定ネットワークが取り付けられ、オンザフライで判定を行う。
ImageNetの広汎な実験により,提案手法は精度0.8%の最先端ビジョン変換器と比較して2倍以上の効率向上を実現し,計算予算の異なる良好な効率/精度トレードオフを実現することができた。
また,視覚トランスフォーマーの冗長性に関するさらなる知見を提供するとともに,学習した使用警察の定量的・質的分析を行う。
関連論文リスト
- Which Transformer to Favor: A Comparative Analysis of Efficiency in Vision Transformers [7.89533262149443]
トランスフォーマーの自己注意は、2次計算の複雑さのために高い計算コストが伴う。
我々のベンチマークは、高解像度画像よりも、一般により大きなモデルを使用することの方が効率的であることを示している。
論文 参考訳(メタデータ) (2023-08-18T08:06:49Z) - Image Deblurring by Exploring In-depth Properties of Transformer [86.7039249037193]
我々は、事前訓練された視覚変換器(ViT)から抽出した深い特徴を活用し、定量的な測定値によって測定された性能を犠牲にすることなく、回復した画像のシャープ化を促進する。
得られた画像と対象画像の変換器特徴を比較することにより、事前学習された変換器は、高解像度のぼやけた意味情報を提供する。
特徴をベクトルとみなし、抽出された画像から抽出された表現とユークリッド空間における対象表現との差を計算する。
論文 参考訳(メタデータ) (2023-03-24T14:14:25Z) - Transformers For Recognition In Overhead Imagery: A Reality Check [0.0]
オーバヘッド画像のための最先端セグメンテーションモデルにトランスフォーマー構造を加えることの影響を比較した。
我々の結果は、トランスフォーマーは一貫性があるが、控えめな、パフォーマンスの向上をもたらすことを示唆している。
論文 参考訳(メタデータ) (2022-10-23T02:17:31Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Three things everyone should know about Vision Transformers [67.30250766591405]
トランスフォーマーアーキテクチャは コンピュータビジョンにおいて 急速に勢いを増しています
視覚変換器の変種をシンプルかつ容易に実装できる3つの洞察を提供する。
我々は、ImageNet-1kデータセットを用いて、これらの設計選択の影響を評価し、ImageNet-v2テストセットにおける結果を確認した。
論文 参考訳(メタデータ) (2022-03-18T08:23:03Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z) - Improve Vision Transformers Training by Suppressing Over-smoothing [28.171262066145612]
トランス構造をコンピュータビジョンのタスクに導入することで、従来の畳み込みネットワークよりも優れたスピード精度のトレードオフが得られます。
しかし、視覚タスクでバニラ変圧器を直接訓練すると、不安定で準最適結果が得られることが示されている。
近年の研究では,視覚タスクの性能向上のために,畳み込み層を導入してトランスフォーマー構造を改良することを提案する。
論文 参考訳(メタデータ) (2021-04-26T17:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。