論文の概要: Vote&Mix: Plug-and-Play Token Reduction for Efficient Vision Transformer
- arxiv url: http://arxiv.org/abs/2408.17062v1
- Date: Fri, 30 Aug 2024 07:48:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 16:09:30.450380
- Title: Vote&Mix: Plug-and-Play Token Reduction for Efficient Vision Transformer
- Title(参考訳): Vote&Mix:高能率ビジョン変換器のプラグアンドプレイトークン削減
- Authors: Shuai Peng, Di Fu, Baole Wei, Yong Cao, Liangcai Gao, Zhi Tang,
- Abstract要約: Vote&Mix (textbfVoMix) は、既製のViTモデルに容易に適用することができる。
VoMixは、層単位でのトークン類似性投票機構を通じて、高い均一性を持つトークンを識別することで、ViTの計算冗長性に取り組む。
実験では、VoMixは画像とビデオの両方でViTの速度精度のトレードオフを大幅に改善することを示した。
- 参考スコア(独自算出の注目度): 17.724361544581527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the remarkable success of Vision Transformers (ViTs) in various visual tasks, they are often hindered by substantial computational cost. In this work, we introduce Vote\&Mix (\textbf{VoMix}), a plug-and-play and parameter-free token reduction method, which can be readily applied to off-the-shelf ViT models \textit{without any training}. VoMix tackles the computational redundancy of ViTs by identifying tokens with high homogeneity through a layer-wise token similarity voting mechanism. Subsequently, the selected tokens are mixed into the retained set, thereby preserving visual information. Experiments demonstrate VoMix significantly improves the speed-accuracy tradeoff of ViTs on both images and videos. Without any training, VoMix achieves a 2$\times$ increase in throughput of existing ViT-H on ImageNet-1K and a 2.4$\times$ increase in throughput of existing ViT-L on Kinetics-400 video dataset, with a mere 0.3\% drop in top-1 accuracy.
- Abstract(参考訳): ヴィジュアルトランスフォーマー(ViT)は様々な視覚的タスクで顕著に成功したが、しばしばかなりの計算コストによって妨げられる。
本稿では,Vote\&Mix (\textbf{VoMix}) を導入し,Vote\&Mix (Votextbf{VoMix}) は,既製のViTモデルに容易に適用可能な,プラグアンドプレイおよびパラメータフリーなトークン削減手法である。
VoMixは、層単位でのトークン類似性投票機構を通じて、高い均一性を持つトークンを識別することで、ViTの計算冗長性に取り組む。
その後、選択されたトークンを保持セットに混合し、視覚情報を保存する。
実験では、VoMixは画像とビデオの両方でViTの速度精度のトレードオフを大幅に改善することを示した。
トレーニングなしでは、ImageNet-1K上の既存のViT-Hのスループットが2$\times$上昇し、Kinetics-400ビデオデータセット上の既存のViT-Lのスループットが2.4$\times$上昇し、トップ1の精度が0.3%低下する。
関連論文リスト
- LookupViT: Compressing visual information to a limited number of tokens [36.83826969693139]
ビジョントランスフォーマー (ViT) は、多くの業界グレードのビジョンソリューションのデファクト選択として登場した。
しかし、それらの推論コストは、トークン数の複雑さに悩まされる各レイヤにおける自己注意を計算するため、多くの設定で禁止される可能性がある。
本研究では、この情報空間を利用してViT推論コストを削減するLookupViTを紹介する。
論文 参考訳(メタデータ) (2024-07-17T17:22:43Z) - SkipViT: Speeding Up Vision Transformers with a Token-Level Skip
Connection [3.960622297616708]
本稿では、異なる低コストの計算経路を分離して送信することで、重要でないトークン間の不要な相互作用量を最適化する手法を提案する。
スクラッチからViT-smallをトレーニングする実験結果から,SkipViTはトークンの55%を効果的に削減でき,トレーニングスループットは13%以上向上した。
論文 参考訳(メタデータ) (2024-01-27T04:24:49Z) - No Token Left Behind: Efficient Vision Transformer via Dynamic Token
Idling [55.203866875294516]
視覚変換器(ViT)はコンピュータビジョンタスクにおいて優れた性能を示した。
ViTの計算負担を軽減するために,様々なトークンプルーニング技術が導入されている。
性能と効率の優れたトレードオフを実現するための動的トークンアイドルベースのIdleViTを提案する。
論文 参考訳(メタデータ) (2023-10-09T12:10:41Z) - CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and
Favorable Transferability For ViTs [79.54107547233625]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。
本稿では,高精度かつ高速な推論速度を実現するViTのジョイント圧縮手法を提案する。
提案手法は,様々な ViT にまたがって最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2023-09-27T16:12:07Z) - Dynamic Token-Pass Transformers for Semantic Segmentation [22.673910995773262]
セマンティックセグメンテーションのための動的トークン・パス・ビジョン・トランスフォーマー(DoViT)を導入する。
DoViTは、部分的に簡単なトークンを自己注意計算から徐々に停止させ、停止基準を満たすまでハードトークンを前進させ続ける。
提案手法は, 約40%$sim$ 60% FLOPsを低減し, mIoUの低下は, 各種セグメンテーション変圧器の0.8%以内である。
論文 参考訳(メタデータ) (2023-08-03T06:14:24Z) - Token Merging: Your ViT But Faster [33.61038274945422]
ToMeは、一般および軽量マッチングアルゴリズムを用いて、変圧器に類似したトークンを徐々に組み合わせている。
市販のToMeは、最先端のViT-L @ 512とViT-H @ 518のスループットを2倍にすることができる。
ToMeによるトレーニングはさらに精度低下を最小化し、オーディオ上のVT-Bのスループットは0.4%のmAPダウンで2倍になる。
論文 参考訳(メタデータ) (2022-10-17T22:23:40Z) - TokenMix: Rethinking Image Mixing for Data Augmentation in Vision
Transformers [36.630476419392046]
CutMixは、現代の畳み込みとトランスフォーマービジョンネットワークのトレーニングによく使われる、一般的な拡張テクニックである。
本稿では,視覚変換器の性能向上のために,新しいデータ拡張手法であるTokenMixを提案する。
論文 参考訳(メタデータ) (2022-07-18T07:08:29Z) - Super Vision Transformer [131.4777773281238]
ImageNetの実験結果から, 我々のSuperViTは, 性能の向上とともに, ViTモデルの計算コストを大幅に削減できることが示された。
我々のSuperViTは、効率的な視覚変換器に関する既存の研究よりも優れています。
論文 参考訳(メタデータ) (2022-05-23T15:42:12Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - Patches Are All You Need? [96.88889685873106]
ビジョントランスフォーマー(ViT)モデルは、いくつかの設定でパフォーマンスを上回る可能性がある。
ViTは、イメージの小さな領域を単一の入力機能にまとめるパッチ埋め込みを使用する必要がある。
本質的によりパワフルなTransformerアーキテクチャによるViTのパフォーマンスは、少なくとも部分的には、入力表現としてパッチを使用することによるものなのでしょうか?
論文 参考訳(メタデータ) (2022-01-24T16:42:56Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。