論文の概要: Token Pooling in Vision Transformers
- arxiv url: http://arxiv.org/abs/2110.03860v2
- Date: Mon, 11 Oct 2021 15:17:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 12:04:31.740137
- Title: Token Pooling in Vision Transformers
- Title(参考訳): 視覚変換器におけるToken Pooling
- Authors: Dmitrii Marin, Jen-Hao Rick Chang, Anurag Ranjan, Anish Prabhu,
Mohammad Rastegari, Oncel Tuzel
- Abstract要約: 視覚変換器では、自己注意は主要なボトルネックではなく、例えば、計算の80%以上が完全に接続された層に費やされている。
本稿では,画像と中間トークン表現の冗長性を効果的に活用するトークンダウンサンプリング手法Token Poolingを提案する。
実験の結果,Token Poolingは最先端のダウンサンプリングに対する費用対精度のトレードオフを大幅に改善することがわかった。
- 参考スコア(独自算出の注目度): 37.11990688046186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the recent success in many applications, the high computational
requirements of vision transformers limit their use in resource-constrained
settings. While many existing methods improve the quadratic complexity of
attention, in most vision transformers, self-attention is not the major
computation bottleneck, e.g., more than 80% of the computation is spent on
fully-connected layers. To improve the computational complexity of all layers,
we propose a novel token downsampling method, called Token Pooling, efficiently
exploiting redundancies in the images and intermediate token representations.
We show that, under mild assumptions, softmax-attention acts as a
high-dimensional low-pass (smoothing) filter. Thus, its output contains
redundancy that can be pruned to achieve a better trade-off between the
computational cost and accuracy. Our new technique accurately approximates a
set of tokens by minimizing the reconstruction error caused by downsampling. We
solve this optimization problem via cost-efficient clustering. We rigorously
analyze and compare to prior downsampling methods. Our experiments show that
Token Pooling significantly improves the cost-accuracy trade-off over the
state-of-the-art downsampling. Token Pooling is a simple and effective operator
that can benefit many architectures. Applied to DeiT, it achieves the same
ImageNet top-1 accuracy using 42% fewer computations.
- Abstract(参考訳): 最近の多くの応用の成功にもかかわらず、視覚トランスフォーマーの計算能力の高い要求はリソース制約された設定での使用を制限する。
多くの既存の手法は注意の二次的複雑さを改善するが、ほとんどのビジョントランスフォーマーでは、セルフアテンションは主要な計算ボトルネックではなく、例えば80%以上の計算が完全に接続された層に費やされる。
すべての層の計算の複雑さを改善するために,トークンプーリングと呼ばれる新しいトークンダウンサンプリング手法を提案し,画像の冗長性を効率的に活用し,中間トークン表現を行う。
軽度の仮定では,ソフトマックスアテンションは高次元低域通過フィルタとして機能する。
したがって、その出力には冗長性が含まれており、計算コストと精度のトレードオフを改善することができる。
提案手法は,ダウンサンプリングによる復元誤差を最小化し,トークン集合を高精度に近似する。
我々はコスト効率のよいクラスタリングによってこの最適化問題を解く。
我々は,事前ダウンサンプリング手法を厳格に分析し,比較する。
実験の結果,Token Poolingは最先端のダウンサンプリングに対するコスト-精度トレードオフを大幅に改善することがわかった。
Token Poolingは多くのアーキテクチャの恩恵を受けることができるシンプルで効果的なオペレータです。
DeiTに適用すると、42%の計算量で同じImageNet Top-1精度を実現する。
関連論文リスト
- Transformer based Pluralistic Image Completion with Reduced Information Loss [72.92754600354199]
トランスフォーマーをベースとした手法は,近年,イメージインペイントにおいて大きな成功を収めている。
彼らは各ピクセルをトークンとみなし、情報損失の問題に悩まされる。
我々はPUTと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-31T01:20:16Z) - PPT: Token Pruning and Pooling for Efficient Vision Transformers [7.792045532428676]
我々は新しいアクセラレーションフレームワーク、すなわちトークン・プルーニング・アンド・プール変換器(PPT)を提案する。
PPTは、トレーニング可能なパラメータを追加せずに、トークンプーリングとトークンプーリングの両方をViTsに統合する。
37%以上のFLOPを削減し、ImageNetデータセットの精度低下なしに、DeiT-Sのスループットを45%以上改善する。
論文 参考訳(メタデータ) (2023-10-03T05:55:11Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Learning strides in convolutional neural networks [34.20666933112202]
この研究は、学習可能なステップを持つ最初のダウンサンプリング層であるDiffStrideを紹介している。
音声と画像の分類実験は,ソリューションの汎用性と有効性を示す。
論文 参考訳(メタデータ) (2022-02-03T16:03:36Z) - FQ-ViT: Fully Quantized Vision Transformer without Retraining [13.82845665713633]
本稿では,量子変換器の性能劣化と推論の複雑さを低減するための系統的手法を提案する。
完全に量子化された視覚変換器上で、我々は初めて精度の劣化(1%)を達成した。
論文 参考訳(メタデータ) (2021-11-27T06:20:53Z) - AdaPool: Exponential Adaptive Pooling for Information-Retaining
Downsampling [82.08631594071656]
畳み込み層は畳み込みニューラルネットワーク(CNN)の重要な構成要素である
適応的で指数関数的に重み付けされたアダプール法を提案する。
adaPoolは画像やビデオの分類やオブジェクト検出など,さまざまなタスクを通じて,ディテールの保存性の向上を実証する。
論文 参考訳(メタデータ) (2021-11-01T08:50:37Z) - Refining activation downsampling with SoftPool [74.1840492087968]
畳み込みニューラルネットワーク(cnns)は、アクティベーションマップのサイズを減らすためにプールを使用する。
指数重化アクティベーションダウンサンプリングの高速かつ効率的な方法であるSoftPoolを提案します。
SoftPoolは、アクティベーションマップの縮小でより多くの情報を保持できることを示します。
論文 参考訳(メタデータ) (2021-01-02T12:09:49Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。