論文の概要: LookupViT: Compressing visual information to a limited number of tokens
- arxiv url: http://arxiv.org/abs/2407.12753v1
- Date: Wed, 17 Jul 2024 17:22:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 16:06:20.186290
- Title: LookupViT: Compressing visual information to a limited number of tokens
- Title(参考訳): LookupViT: 限られた数のトークンに視覚情報を圧縮する
- Authors: Rajat Koner, Gagan Jain, Prateek Jain, Volker Tresp, Sujoy Paul,
- Abstract要約: ビジョントランスフォーマー (ViT) は、多くの業界グレードのビジョンソリューションのデファクト選択として登場した。
しかし、それらの推論コストは、トークン数の複雑さに悩まされる各レイヤにおける自己注意を計算するため、多くの設定で禁止される可能性がある。
本研究では、この情報空間を利用してViT推論コストを削減するLookupViTを紹介する。
- 参考スコア(独自算出の注目度): 36.83826969693139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViT) have emerged as the de-facto choice for numerous industry grade vision solutions. But their inference cost can be prohibitive for many settings, as they compute self-attention in each layer which suffers from quadratic computational complexity in the number of tokens. On the other hand, spatial information in images and spatio-temporal information in videos is usually sparse and redundant. In this work, we introduce LookupViT, that aims to exploit this information sparsity to reduce ViT inference cost. LookupViT provides a novel general purpose vision transformer block that operates by compressing information from higher resolution tokens to a fixed number of tokens. These few compressed tokens undergo meticulous processing, while the higher-resolution tokens are passed through computationally cheaper layers. Information sharing between these two token sets is enabled through a bidirectional cross-attention mechanism. The approach offers multiple advantages - (a) easy to implement on standard ML accelerators (GPUs/TPUs) via standard high-level operators, (b) applicable to standard ViT and its variants, thus generalizes to various tasks, (c) can handle different tokenization and attention approaches. LookupViT also offers flexibility for the compressed tokens, enabling performance-computation trade-offs in a single trained model. We show LookupViT's effectiveness on multiple domains - (a) for image-classification (ImageNet-1K and ImageNet-21K), (b) video classification (Kinetics400 and Something-Something V2), (c) image captioning (COCO-Captions) with a frozen encoder. LookupViT provides $2\times$ reduction in FLOPs while upholding or improving accuracy across these domains. In addition, LookupViT also demonstrates out-of-the-box robustness and generalization on image classification (ImageNet-C,R,A,O), improving by up to $4\%$ over ViT.
- Abstract(参考訳): ビジョントランスフォーマー (ViT) は、多くの業界グレードのビジョンソリューションのデファクト選択として登場した。
しかし、それらの推論コストは、トークン数において2次計算の複雑さに悩まされる各層における自己注意を計算するため、多くの設定で禁止される。
一方、画像中の空間情報やビデオ内の時空間情報は、通常疎外的で冗長である。
本研究では,この情報空間を利用してViT推論コストを削減するLookupViTを紹介する。
LookupViTは、高解像度トークンから一定数のトークンに情報を圧縮することで動作する、新しい汎用視覚トランスフォーマーブロックを提供する。
これらの数個の圧縮トークンは精巧に処理され、高解像度トークンは計算コストの低い層に渡される。
これら2つのトークンセット間の情報共有は、双方向のクロスアテンション機構によって実現される。
このアプローチには複数の利点があります。
(a)標準のMLアクセラレータ(GPU/TPU)に標準の高レベル演算子を介して簡単に実装できる。
b) 標準 ViT とその変種に適用し、様々なタスクに一般化する。
c) 異なるトークン化とアテンションアプローチを扱うことができる。
LookupViTはまた、圧縮トークンの柔軟性を提供し、単一のトレーニングモデルでパフォーマンス計算のトレードオフを可能にする。
複数ドメインにおける LookupViT の有効性を示す。
(a)画像分類用(ImageNet-1K、ImageNet-21K)
(b)動画分類(Kinetics400及びSomething V2)
(c) 冷凍エンコーダによる画像キャプション(COCO-Captions)。
LookupViTはFLOPを2ドル値下げし、これらのドメインをまたいで精度をアップまたは改善する。
さらに、LookupViTは画像分類(ImageNet-C,R,A,O)におけるアウト・オブ・ボックスの堅牢性や一般化も示しており、ViTよりも最大4\%向上している。
関連論文リスト
- VLTP: Vision-Language Guided Token Pruning for Task-Oriented Segmentation [18.9885501527331]
ビジョントランスフォーマー(ViT)は多くのセグメンテーションモデルのバックボーンとして登場し、常に最先端(SOTA)のパフォーマンスを実現している。
画像トークンのプルーニングは、この複雑さに対処する最も効果的な戦略の1つである。
この研究は、VLTP(Vision Language Guided Token Pruning)を導入し、ViTベースのセグメンテーションモデルを高速化する新しいトークンプルーニングメカニズムを紹介した。
論文 参考訳(メタデータ) (2024-09-13T01:30:24Z) - LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation [37.72775203647514]
本稿では,学習可能なメタトークンを用いてスパーストークンを定式化し,キー情報を効果的に学習し,推論速度を向上させることを提案する。
視覚トークンが密集した早期にデュアル・クロス・アテンション(DCA)を用いることで,様々な大きさの階層型アーキテクチャLeMeViTが得られる。
分類と密接な予測タスクの実験結果は、LeMeViTがベースラインモデルと比較して1.7倍のスピードアップ、少ないパラメータ、競争性能を持っていることを示している。
論文 参考訳(メタデータ) (2024-05-16T03:26:06Z) - Dynamic Token-Pass Transformers for Semantic Segmentation [22.673910995773262]
セマンティックセグメンテーションのための動的トークン・パス・ビジョン・トランスフォーマー(DoViT)を導入する。
DoViTは、部分的に簡単なトークンを自己注意計算から徐々に停止させ、停止基準を満たすまでハードトークンを前進させ続ける。
提案手法は, 約40%$sim$ 60% FLOPsを低減し, mIoUの低下は, 各種セグメンテーション変圧器の0.8%以内である。
論文 参考訳(メタデータ) (2023-08-03T06:14:24Z) - SegViTv2: Exploring Efficient and Continual Semantic Segmentation with
Plain Vision Transformers [76.13755422671822]
本稿では,エンコーダ・デコーダ・フレームワークを用いた意味的セグメンテーションのためのプレーンビジョン変換器(ViT)の能力について検討する。
Intention-to-Mask(atm)モジュールを導入し、平易なViTに有効な軽量デコーダを設計する。
我々のデコーダは、様々なViTバックボーンを使用して人気のあるデコーダUPerNetより優れ、計算コストの5%程度しか消費しない。
論文 参考訳(メタデータ) (2023-06-09T22:29:56Z) - Efficient Video Action Detection with Token Dropout and Context
Refinement [67.10895416008911]
効率的なビデオアクション検出(ViT)のためのエンドツーエンドフレームワークを提案する。
ビデオクリップでは、他のフレームからのアクターの動きに関連するトークンを保存しながら、その視点でトークンを維持する。
第二に、残ったトークンを利用してシーンコンテキストを洗練し、アクターのアイデンティティをよりよく認識する。
論文 参考訳(メタデータ) (2023-04-17T17:21:21Z) - Making Vision Transformers Efficient from A Token Sparsification View [26.42498120556985]
本稿では,グローバル・ローカル・ビジョン・トランスフォーマのための新しいセマンティック・トークンViT(STViT)を提案する。
提案手法は,対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できる。
さらに,STViTに基づいて詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,下流タスクに有効である。
論文 参考訳(メタデータ) (2023-03-15T15:12:36Z) - ViT-FOD: A Vision Transformer based Fine-grained Object Discriminator [21.351034332423374]
細粒度画像分類(FGVC)タスクのための新しいViTに基づく細粒度物体識別器を提案する。
ViTバックボーンの他に、APC(Attention Patch Combination)、CRF(Critical Regions Filter)、CTI(Complementary Tokens Integration)という3つの新しいコンポーネントが導入されている。
我々は広く使われているデータセットに関する包括的な実験を行い、その結果、ViT-FODが最先端のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2022-03-24T02:34:57Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z) - Tokens-to-Token ViT: Training Vision Transformers from Scratch on
ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。
T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。
例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2021-01-28T13:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。