論文の概要: Make A Long Image Short: Adaptive Token Length for Vision Transformers
- arxiv url: http://arxiv.org/abs/2112.01686v2
- Date: Mon, 6 Dec 2021 03:24:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 12:40:57.665782
- Title: Make A Long Image Short: Adaptive Token Length for Vision Transformers
- Title(参考訳): 長めの画像:視覚変換器の適応的トーケン長
- Authors: Yichen Zhu, Yuqin Zhu, Jie Du, Yi Wang, Zhicai Ou, Feifei Feng and
Jian Tang
- Abstract要約: 視覚変換器は各画像を一定長さのトークン列に分割し、自然言語処理における単語と同じ方法でトークンを処理する。
推論中にトークン長を適応的に割り当てる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 17.21663067385715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The vision transformer splits each image into a sequence of tokens with fixed
length and processes the tokens in the same way as words in natural language
processing. More tokens normally lead to better performance but considerably
increased computational cost. Motivated by the proverb "A picture is worth a
thousand words" we aim to accelerate the ViT model by making a long image
short. To this end, we propose a novel approach to assign token length
adaptively during inference. Specifically, we first train a ViT model, called
Resizable-ViT (ReViT), that can process any given input with diverse token
lengths. Then, we retrieve the "token-length label" from ReViT and use it to
train a lightweight Token-Length Assigner (TLA). The token-length labels are
the smallest number of tokens to split an image that the ReViT can make the
correct prediction, and TLA is learned to allocate the optimal token length
based on these labels. The TLA enables the ReViT to process the image with the
minimum sufficient number of tokens during inference. Thus, the inference speed
is boosted by reducing the token numbers in the ViT model. Our approach is
general and compatible with modern vision transformer architectures and can
significantly reduce computational expanse. We verified the effectiveness of
our methods on multiple representative ViT models (DeiT, LV-ViT, and
TimesFormer) across two tasks (image classification and action recognition).
- Abstract(参考訳): 視覚変換器は、各画像を一定長さのトークン列に分割し、自然言語処理における単語と同じ方法でトークンを処理する。
トークンが増えるとパフォーマンスは向上するが、計算コストは大幅に増加する。
画像は千語に値する」という証明に動機づけられた私たちは、長い画像を短くすることで、ViTモデルを加速することを目指している。
そこで本研究では,推論中にトークン長を適応的に割り当てる手法を提案する。
具体的には、まずResizable-ViT(ReViT)と呼ばれるViTモデルをトレーニングします。
次に、revitから“token-length label”を取得して、軽量なトークン長アサイン(tla)のトレーニングに使用します。
トークン長ラベルは、ReViTが正しい予測を行うことができる画像を分割するトークンの最小数であり、TLAはこれらのラベルに基づいて最適なトークン長を割り当てることを学ぶ。
TLAにより、ReViTは推論中に最小限のトークン数で画像を処理できる。
これにより、vitモデルのトークン数を減らすことにより、推論速度が向上する。
我々のアプローチは、現代の視覚変換器アーキテクチャと汎用的で互換性があり、計算膨張を大幅に減らすことができる。
提案手法の有効性を2つの課題(画像分類と行動認識)にまたがる複数の代表的ViTモデル(DeiT,LV-ViT,TimesFormer)で検証した。
関連論文リスト
- VLTP: Vision-Language Guided Token Pruning for Task-Oriented Segmentation [18.9885501527331]
ビジョントランスフォーマー(ViT)は多くのセグメンテーションモデルのバックボーンとして登場し、常に最先端(SOTA)のパフォーマンスを実現している。
画像トークンのプルーニングは、この複雑さに対処する最も効果的な戦略の1つである。
この研究は、VLTP(Vision Language Guided Token Pruning)を導入し、ViTベースのセグメンテーションモデルを高速化する新しいトークンプルーニングメカニズムを紹介した。
論文 参考訳(メタデータ) (2024-09-13T01:30:24Z) - Matryoshka Query Transformer for Large Vision-Language Models [103.84600181927884]
我々は,Materyoshka Query Transformer (MQT)を導入し,推論中に画像をmビジュアルトークンにエンコードする。
単一のモデルを一度トレーニングし、フレキシブルかつ劇的に、推論時の視覚トークンの数を削減します。
MQT-LLAVAは,LLaVAの固定576の代わりに最大256トークンを用いて,11ベンチマークでLLaVA-1.5のパフォーマンスと一致した。
論文 参考訳(メタデータ) (2024-05-29T17:39:42Z) - No Token Left Behind: Efficient Vision Transformer via Dynamic Token
Idling [55.203866875294516]
視覚変換器(ViT)はコンピュータビジョンタスクにおいて優れた性能を示した。
ViTの計算負担を軽減するために,様々なトークンプルーニング技術が導入されている。
性能と効率の優れたトレードオフを実現するための動的トークンアイドルベースのIdleViTを提案する。
論文 参考訳(メタデータ) (2023-10-09T12:10:41Z) - Make A Long Image Short: Adaptive Token Length for Vision Transformers [5.723085628967456]
本稿では、長い画像の短縮によるViTモデルを高速化するための革新的なアプローチを提案する。
具体的には、テスト時に各画像に対してトークン長を適応的に割り当て、推論速度を高速化する手法を提案する。
論文 参考訳(メタデータ) (2023-07-05T08:10:17Z) - Multi-Tailed Vision Transformer for Efficient Inference [44.43126137573205]
Vision Transformer (ViT) は画像認識において有望な性能を達成した。
本稿では,MT-ViT(Multi-Tailed Vision Transformer)を提案する。
MT-ViTは、以下のTransformerエンコーダのために異なる長さの視覚シーケンスを生成するために複数のテールを採用する。
論文 参考訳(メタデータ) (2022-03-03T09:30:55Z) - Not All Patches are What You Need: Expediting Vision Transformers via
Token Reorganizations [37.11387992603467]
ViT(Vision Transformer)は、すべてのイメージパッチをトークンとして取り込んで、MHSA(Multi-head Self-attention)を構築する。
例えば、意味的に無意味な画像背景を含むトークンがある。
本稿では、トレーニング中にViTに統合されたVTモデルのフィードフォワードプロセス中に画像トークンを再編成することを提案する。
論文 参考訳(メタデータ) (2022-02-16T00:19:42Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - Tokens-to-Token ViT: Training Vision Transformers from Scratch on
ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。
T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。
例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2021-01-28T13:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。