論文の概要: Token Pruning using a Lightweight Background Aware Vision Transformer
- arxiv url: http://arxiv.org/abs/2410.09324v1
- Date: Sat, 12 Oct 2024 01:44:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 15:03:38.022606
- Title: Token Pruning using a Lightweight Background Aware Vision Transformer
- Title(参考訳): 軽量背景認識型視覚変換器を用いたトーケンプルーニング
- Authors: Sudhakar Sah, Ravish Kumar, Honnesh Rohmetra, Ehsan Saboori,
- Abstract要約: トークンプルーニングは、各トークンの重要基準に基づいて、ViTへの入力トークンの数を減少させる。
バックグラウンドトークンは、ViTベースのオブジェクト検出器に供給する前に、完全にまたは部分的にプルーニングすることができる。
また,YOLOSのプリプロセッサとして2層BAViT-小モデルを用いて,mAPを3%減少させることなく,スループットを30% - 40%向上させることができることを示した。
- 参考スコア(独自算出の注目度): 0.6856888934092934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High runtime memory and high latency puts significant constraint on Vision Transformer training and inference, especially on edge devices. Token pruning reduces the number of input tokens to the ViT based on importance criteria of each token. We present a Background Aware Vision Transformer (BAViT) model, a pre-processing block to object detection models like DETR/YOLOS aimed to reduce runtime memory and increase throughput by using a novel approach to identify background tokens in the image. The background tokens can be pruned completely or partially before feeding to a ViT based object detector. We use the semantic information provided by segmentation map and/or bounding box annotation to train a few layers of ViT to classify tokens to either foreground or background. Using 2 layers and 10 layers of BAViT, background and foreground tokens can be separated with 75% and 88% accuracy on VOC dataset and 71% and 80% accuracy on COCO dataset respectively. We show a 2 layer BAViT-small model as pre-processor to YOLOS can increase the throughput by 30% - 40% with a mAP drop of 3% without any sparse fine-tuning and 2% with sparse fine-tuning. Our approach is specifically targeted for Edge AI use cases.
- Abstract(参考訳): 高ランタイムメモリと高レイテンシは、特にエッジデバイスにおいて、Vision Transformerのトレーニングと推論に大きな制約を与える。
トークンプルーニングは、各トークンの重要基準に基づいて、ViTへの入力トークンの数を減少させる。
画像中の背景トークンを識別するための新しいアプローチを用いて,実行時のメモリ削減とスループット向上を目的とした,DeTR/YOLOSなどのオブジェクト検出モデルに対する前処理ブロックである背景認識ビジョン変換器(BAViT)モデルを提案する。
背景トークンは、ViTベースのオブジェクト検出器に供給する前に、完全にまたは部分的にプルーニングすることができる。
セグメンテーションマップと/またはバウンディングボックスアノテーションによって提供されるセグメンテーション情報を使用して、ViTのいくつかのレイヤをトレーニングし、トークンを前景または背景に分類します。
BAViTの2層と10層を使用して、VOCデータセットでは75%と88%、COCOデータセットでは71%と80%の精度で、バックグラウンドトークンとフォアグラウンドトークンを分離することができる。
また,YOLOSのプリプロセッサとして2層BAViT-小モデルを用いると,mAPが3%減少しても,スパース微調整が不要で,スパース微調整が2%でスループットが30%~40%向上することを示した。
当社のアプローチは、Edge AIユースケースを特に対象としています。
関連論文リスト
- ToSA: Token Selective Attention for Efficient Vision Transformers [50.13756218204456]
ToSAはトークン選択型アテンションアプローチで、コンバータ層をスキップできるトークンだけでなく、参加する必要のあるトークンも識別できる。
ToSAは,ImageNet分類ベンチマークの精度を維持しながら,計算コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-06-13T05:17:21Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - No Token Left Behind: Efficient Vision Transformer via Dynamic Token
Idling [55.203866875294516]
視覚変換器(ViT)はコンピュータビジョンタスクにおいて優れた性能を示した。
ViTの計算負担を軽減するために,様々なトークンプルーニング技術が導入されている。
性能と効率の優れたトレードオフを実現するための動的トークンアイドルベースのIdleViTを提案する。
論文 参考訳(メタデータ) (2023-10-09T12:10:41Z) - Making Vision Transformers Efficient from A Token Sparsification View [26.42498120556985]
本稿では,グローバル・ローカル・ビジョン・トランスフォーマのための新しいセマンティック・トークンViT(STViT)を提案する。
提案手法は,対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できる。
さらに,STViTに基づいて詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,下流タスクに有効である。
論文 参考訳(メタデータ) (2023-03-15T15:12:36Z) - Vision Transformer with Super Token Sampling [93.70963123497327]
多くの視覚タスクにおいて、視覚変換器は印象的なパフォーマンスを達成した。
浅い層のために局所的な特徴を捉える際に、高い冗長性に悩まされる可能性がある。
スーパートークンは、視覚的コンテンツの意味的に意味のあるテッセルレーションを提供しようとする。
論文 参考訳(メタデータ) (2022-11-21T03:48:13Z) - DynamicViT: Efficient Vision Transformers with Dynamic Token
Sparsification [134.9393799043401]
入力に基づいて冗長なトークンを抽出する動的トークンスペーシフィケーションフレームワークを提案する。
入力トークンの66%を階層的にプルーニングすることで,FLOPの31%37%を大幅に削減し,スループットを40%以上向上する。
DynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性/精度のトレードオフを実現することができる。
論文 参考訳(メタデータ) (2021-06-03T17:57:41Z) - Tokens-to-Token ViT: Training Vision Transformers from Scratch on
ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。
T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。
例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2021-01-28T13:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。