論文の概要: Make A Long Image Short: Adaptive Token Length for Vision Transformers
- arxiv url: http://arxiv.org/abs/2307.02092v1
- Date: Wed, 5 Jul 2023 08:10:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 14:33:18.113233
- Title: Make A Long Image Short: Adaptive Token Length for Vision Transformers
- Title(参考訳): 長めの画像:視覚変換器の適応的トーケン長
- Authors: Qiqi Zhou and Yichen Zhu
- Abstract要約: 本稿では、長い画像の短縮によるViTモデルを高速化するための革新的なアプローチを提案する。
具体的には、テスト時に各画像に対してトークン長を適応的に割り当て、推論速度を高速化する手法を提案する。
- 参考スコア(独自算出の注目度): 5.723085628967456
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The vision transformer is a model that breaks down each image into a sequence
of tokens with a fixed length and processes them similarly to words in natural
language processing. Although increasing the number of tokens typically results
in better performance, it also leads to a considerable increase in
computational cost. Motivated by the saying "A picture is worth a thousand
words," we propose an innovative approach to accelerate the ViT model by
shortening long images. Specifically, we introduce a method for adaptively
assigning token length for each image at test time to accelerate inference
speed. First, we train a Resizable-ViT (ReViT) model capable of processing
input with diverse token lengths. Next, we extract token-length labels from
ReViT that indicate the minimum number of tokens required to achieve accurate
predictions. We then use these labels to train a lightweight Token-Length
Assigner (TLA) that allocates the optimal token length for each image during
inference. The TLA enables ReViT to process images with the minimum sufficient
number of tokens, reducing token numbers in the ViT model and improving
inference speed. Our approach is general and compatible with modern vision
transformer architectures, significantly reducing computational costs. We
verified the effectiveness of our methods on multiple representative ViT models
on image classification and action recognition.
- Abstract(参考訳): 視覚変換器は、各画像を一定の長さのトークン列に分解し、自然言語処理における単語と同様の処理を行うモデルである。
トークンの数が増加するとパフォーマンスが向上するが、計算コストも大幅に増加する。
画像は千語に値する」という言い回しに動機付けられ、長い画像の短縮によるViTモデルを加速する革新的なアプローチを提案する。
具体的には,テスト時に各画像にトークン長を適応的に割り当てて推定速度を高速化する方法を提案する。
まず、さまざまなトークン長で入力を処理できるResizable-ViT(ReViT)モデルを訓練する。
次に、正確な予測を行うために必要なトークンの最小数を示すReViTからトークン長ラベルを抽出する。
次にこれらのラベルを使用して、推論中に画像毎に最適なトークン長を割り当てる軽量トークン長アサイン(tla)をトレーニングします。
TLAにより、ReViTは最小限のトークン数で画像を処理でき、ViTモデルのトークン数を減らし、推論速度を向上させることができる。
我々のアプローチは汎用的で、現代の視覚変換器アーキテクチャと互換性があり、計算コストを大幅に削減する。
画像分類と行動認識における複数の代表的ViTモデルの有効性を検証した。
関連論文リスト
- ImageFolder: Autoregressive Image Generation with Folded Tokens [51.815319504939396]
トークン長の増大は、画像再構成の品質を改善するための一般的なアプローチである。
トークン長に関する復元と生成品質の間にはトレードオフがある。
本稿では,自己回帰モデルにおいて折り畳み可能な空間整列型画像トークンを提供するセマンティック・トークンライザであるイメージを提案する。
論文 参考訳(メタデータ) (2024-10-02T17:06:39Z) - SA$^2$VP: Spatially Aligned-and-Adapted Visual Prompt [59.280491260635266]
視覚的プロンプトチューニングの方法は、NLPから派生した逐次モデリングパラダイムに従う。
マイモデルモデルは、画像トークンマップに等しい大きさ(またはスケールした)の2次元プロンプトトークンマップを学習する。
我々のモデルは、個々の画像トークンをきめ細かな方法でプロンプトすることができる。
論文 参考訳(メタデータ) (2023-12-16T08:23:43Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Multi-Tailed Vision Transformer for Efficient Inference [44.43126137573205]
Vision Transformer (ViT) は画像認識において有望な性能を達成した。
本稿では,MT-ViT(Multi-Tailed Vision Transformer)を提案する。
MT-ViTは、以下のTransformerエンコーダのために異なる長さの視覚シーケンスを生成するために複数のテールを採用する。
論文 参考訳(メタデータ) (2022-03-03T09:30:55Z) - Not All Patches are What You Need: Expediting Vision Transformers via
Token Reorganizations [37.11387992603467]
ViT(Vision Transformer)は、すべてのイメージパッチをトークンとして取り込んで、MHSA(Multi-head Self-attention)を構築する。
例えば、意味的に無意味な画像背景を含むトークンがある。
本稿では、トレーニング中にViTに統合されたVTモデルのフィードフォワードプロセス中に画像トークンを再編成することを提案する。
論文 参考訳(メタデータ) (2022-02-16T00:19:42Z) - Make A Long Image Short: Adaptive Token Length for Vision Transformers [17.21663067385715]
視覚変換器は各画像を一定長さのトークン列に分割し、自然言語処理における単語と同じ方法でトークンを処理する。
推論中にトークン長を適応的に割り当てる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-12-03T02:48:51Z) - DynamicViT: Efficient Vision Transformers with Dynamic Token
Sparsification [134.9393799043401]
入力に基づいて冗長なトークンを抽出する動的トークンスペーシフィケーションフレームワークを提案する。
入力トークンの66%を階層的にプルーニングすることで,FLOPの31%37%を大幅に削減し,スループットを40%以上向上する。
DynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性/精度のトレードオフを実現することができる。
論文 参考訳(メタデータ) (2021-06-03T17:57:41Z) - Not All Images are Worth 16x16 Words: Dynamic Vision Transformers with
Adaptive Sequence Length [40.35853878334764]
視覚変換器(ViT)は大規模画像認識において顕著な成功を収めた。
精度と速度の適切なトレードオフを達成するため、トークンの数は16x16に実証的に設定される。
入力画像ごとに適切な数のトークンを自動的に設定する動的変換器を提案する。
論文 参考訳(メタデータ) (2021-05-31T16:04:10Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - Tokens-to-Token ViT: Training Vision Transformers from Scratch on
ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。
T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。
例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2021-01-28T13:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。