論文の概要: Multi-Tailed Vision Transformer for Efficient Inference
- arxiv url: http://arxiv.org/abs/2203.01587v1
- Date: Thu, 3 Mar 2022 09:30:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 16:12:26.603853
- Title: Multi-Tailed Vision Transformer for Efficient Inference
- Title(参考訳): 効率的な推論のための多段視覚変換器
- Authors: Yunke Wang, Bo Du, Chang Xu
- Abstract要約: Vision Transformer (ViT) は画像認識において有望な性能を達成した。
本稿では,MT-ViT(Multi-Tailed Vision Transformer)を提案する。
MT-ViTは、以下のTransformerエンコーダのために異なる長さの視覚シーケンスを生成するために複数のテールを採用する。
- 参考スコア(独自算出の注目度): 48.595574101874575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Vision Transformer (ViT) has achieved promising performance in
image recognition and gradually serves as a powerful backbone in various vision
tasks. To satisfy the sequential input of Transformer, the tail of ViT first
splits each image into a sequence of visual tokens with a fixed length. Then
the following self-attention layers constructs the global relationship between
tokens to produce useful representation for the downstream tasks. Empirically,
representing the image with more tokens leads to better performance, yet the
quadratic computational complexity of self-attention layer to the number of
tokens could seriously influence the efficiency of ViT's inference. For
computational reduction, a few pruning methods progressively prune
uninformative tokens in the Transformer encoder, while leaving the number of
tokens before the Transformer untouched. In fact, fewer tokens as the input for
the Transformer encoder can directly reduce the following computational cost.
In this spirit, we propose a Multi-Tailed Vision Transformer (MT-ViT) in the
paper. MT-ViT adopts multiple tails to produce visual sequences of different
lengths for the following Transformer encoder. A tail predictor is introduced
to decide which tail is the most efficient for the image to produce accurate
prediction. Both modules are optimized in an end-to-end fashion, with the
Gumbel-Softmax trick. Experiments on ImageNet-1K demonstrate that MT-ViT can
achieve a significant reduction on FLOPs with no degradation of the accuracy
and outperform other compared methods in both accuracy and FLOPs.
- Abstract(参考訳): 近年、視覚トランスフォーマー(vit)は画像認識において有望な性能を達成し、様々な視覚タスクにおいて徐々に強力なバックボーンとして機能している。
Transformerのシーケンシャル入力を満たすために、ViTのテールはまず各画像を一定長さの視覚トークンのシーケンスに分割する。
次に、以下の自己注意層がトークン間のグローバルな関係を構築し、下流タスクに有用な表現を生成する。
実証的には、より多くのトークンで画像を表現することでパフォーマンスが向上するが、トークンの数に対する自己認識層の2次計算の複雑さは、ViTの推論の効率に深刻な影響を及ぼす可能性がある。
計算量削減のために、トランスフォーマーエンコーダで不定形トークンを段階的にプルーニングする手法がいくつかあるが、トランスフォーマーが触れない前にトークンの数を残している。
実際、トランスコーダの入力によるトークンの削減は、以下の計算コストを直接削減することができる。
本稿では,MT-ViT(Multi-Tailed Vision Transformer)を提案する。
MT-ViTは、以下のTransformerエンコーダのために異なる長さの視覚シーケンスを生成するために複数のテールを採用する。
テール予測器を導入し、画像の正確な予測を行うのに最も効率的なテールを決定する。
どちらのモジュールも、Gumbel-Softmaxのトリックでエンドツーエンドで最適化されている。
ImageNet-1Kの実験では、MT-ViTは精度を低下させることなくFLOPを著しく低減し、他の比較手法を精度とFLOPの両方で上回った。
関連論文リスト
- CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Pix4Point: Image Pretrained Standard Transformers for 3D Point Cloud
Understanding [62.502694656615496]
本稿では、プログレッシブ・ポイント・パッチ・エンベディングと、PViTと呼ばれる新しいポイント・クラウド・トランスフォーマーモデルを提案する。
PViTはTransformerと同じバックボーンを共有しているが、データに対して空腹が少ないことが示されており、Transformerは最先端技術に匹敵するパフォーマンスを実現することができる。
我々は、イメージ領域で事前訓練されたトランスフォーマーを活用して、下流のクラウド理解を強化する、シンプルで効果的なパイプライン「Pix4Point」を定式化します。
論文 参考訳(メタデータ) (2022-08-25T17:59:29Z) - HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文 参考訳(メタデータ) (2022-05-30T09:34:44Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - CvT: Introducing Convolutions to Vision Transformers [44.74550305869089]
畳み込み視覚変換器(CvT)は、視覚変換器(ViT)の性能と効率を向上する。
新しいアーキテクチャはViTに畳み込み、両方の設計で最高のものを生み出す。
論文 参考訳(メタデータ) (2021-03-29T17:58:22Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。