論文の概要: ATS: Adaptive Token Sampling For Efficient Vision Transformers
- arxiv url: http://arxiv.org/abs/2111.15667v1
- Date: Tue, 30 Nov 2021 18:56:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 15:59:26.101047
- Title: ATS: Adaptive Token Sampling For Efficient Vision Transformers
- Title(参考訳): ats:効率的な視覚トランスフォーマーのための適応トークンサンプリング
- Authors: Mohsen Fayyaz, Soroush Abbasi Kouhpayegani, Farnoush Rezaei Jafari,
Eric Sommerlade, Hamid Reza Vaezi Joze, Hamed Pirsiavash, Juergen Gall
- Abstract要約: 本稿では,パラメータフリーな適応トークンサンプリング(ATS)モジュールを導入し,既存の視覚トランスフォーマアーキテクチャにプラグインすることができる。
ATSは、重要なトークンをスコアリングし、適応的にサンプリングすることで、視覚変換器の強化を行う。
評価の結果,提案モジュールは精度を保ちながら計算コスト(GFLOPs)を37%削減し,最先端技術の向上を図っている。
- 参考スコア(独自算出の注目度): 33.297806854292155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While state-of-the-art vision transformer models achieve promising results
for image classification, they are computationally very expensive and require
many GFLOPs. Although the GFLOPs of a vision transformer can be decreased by
reducing the number of tokens in the network, there is no setting that is
optimal for all input images. In this work, we, therefore, introduce a
differentiable parameter-free Adaptive Token Sampling (ATS) module, which can
be plugged into any existing vision transformer architecture. ATS empowers
vision transformers by scoring and adaptively sampling significant tokens. As a
result, the number of tokens is not anymore static but it varies for each input
image. By integrating ATS as an additional layer within current transformer
blocks, we can convert them into much more efficient vision transformers with
an adaptive number of tokens. Since ATS is a parameter-free module, it can be
added to off-the-shelf pretrained vision transformers as a plug-and-play
module, thus reducing their GFLOPs without any additional training. However,
due to its differentiable design, one can also train a vision transformer
equipped with ATS. We evaluate our module on the ImageNet dataset by adding it
to multiple state-of-the-art vision transformers. Our evaluations show that the
proposed module improves the state-of-the-art by reducing the computational
cost (GFLOPs) by 37% while preserving the accuracy.
- Abstract(参考訳): 最先端の視覚変換器モデルは画像分類に有望な結果をもたらすが、計算は非常に高価であり、多くのGFLOPを必要とする。
ネットワーク内のトークン数を減らすことで、視覚変換器のGFLOPを削減できるが、全ての入力画像に最適な設定は存在しない。
そこで本研究では,既存の視覚トランスフォーマーアーキテクチャにプラグイン可能な,微分可能なパラメータフリー適応トークンサンプリング(ats)モジュールを導入する。
ATSは重要なトークンをスコアリングし、適応的にサンプリングすることで、視覚変換器の強化を行う。
その結果、トークンの数はもはや静的ではないが、入力画像ごとに異なる。
ATSを現在の変圧器ブロックの付加層として統合することにより、適応数のトークンでより効率的な視覚変換器に変換することができる。
ATSはパラメータフリーのモジュールであるため、オフザシェルフで事前訓練された視覚変換器をプラグアンドプレイモジュールとして追加することができる。
しかし、その異なる設計のため、ATSを装備した視覚変換器を訓練することもできる。
我々は、imagenetデータセット上のモジュールを複数の最先端ビジョントランスフォーマに付加することで評価する。
評価の結果,提案モジュールは精度を保ちながら計算コスト(GFLOPs)を37%削減し,最先端技術の向上を図っている。
関連論文リスト
- SparseSwin: Swin Transformer with Sparse Transformer Block [1.7243216387069678]
本稿では,パラメータ数を削減し,変換器をより効率的にすることを目的とする。
Sparse Transformer (SparTa) Block は,スパーストークンコンバータを付加した改良型トランスブロックである。
提案されたSparseSwinモデルは、イメージNet100、CIFAR10、CIFAR100のデータセットでそれぞれ86.96%、97.43%、85.35%の精度で、画像分類における他の技術モデルよりも優れている。
論文 参考訳(メタデータ) (2023-09-11T04:03:43Z) - Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles [65.54857068975068]
本稿では、この追加のバルクは不要であると論じる。
強いビジュアル・プレテキスト・タスク(MAE)で事前トレーニングを行うことで、最先端の多段階視覚変換器から全てのベル・アンド・ウィストルを除去することができる。
Hieraは、非常に単純な階層型視覚変換器で、従来のモデルよりも正確です。
論文 参考訳(メタデータ) (2023-06-01T17:59:58Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Reversible Vision Transformers [74.3500977090597]
Reversible Vision Transformersは、視覚認識のためのメモリ効率の良いアーキテクチャである。
我々は2つの人気モデル、すなわちビジョン変換器とマルチスケールビジョン変換器を可逆的変種に適用する。
より深いモデルでは、アクティベーションを再計算する際の計算負荷が過大評価されている。
論文 参考訳(メタデータ) (2023-02-09T18:59:54Z) - HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文 参考訳(メタデータ) (2022-05-30T09:34:44Z) - Multi-Tailed Vision Transformer for Efficient Inference [44.43126137573205]
Vision Transformer (ViT) は画像認識において有望な性能を達成した。
本稿では,MT-ViT(Multi-Tailed Vision Transformer)を提案する。
MT-ViTは、以下のTransformerエンコーダのために異なる長さの視覚シーケンスを生成するために複数のテールを採用する。
論文 参考訳(メタデータ) (2022-03-03T09:30:55Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - DynamicViT: Efficient Vision Transformers with Dynamic Token
Sparsification [134.9393799043401]
入力に基づいて冗長なトークンを抽出する動的トークンスペーシフィケーションフレームワークを提案する。
入力トークンの66%を階層的にプルーニングすることで,FLOPの31%37%を大幅に削減し,スループットを40%以上向上する。
DynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性/精度のトレードオフを実現することができる。
論文 参考訳(メタデータ) (2021-06-03T17:57:41Z) - Incorporating Convolution Designs into Visual Transformers [24.562955955312187]
我々は、低レベル特徴抽出におけるCNNの利点、局所性の向上、長距離依存の確立におけるトランスフォーマーの利点を組み合わせた新しいtextbfConvolution-enhanced image Transformer (CeiT) を提案する。
ImageNetと7つの下流タスクの実験結果は、大量のトレーニングデータや追加のCNN教師を必要とすることなく、従来のトランスフォーマーや最先端CNNと比較してCeiTの有効性と一般化能力を示している。
論文 参考訳(メタデータ) (2021-03-22T13:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。