論文の概要: Efficient Online Inference of Vision Transformers by Training-Free Tokenization
- arxiv url: http://arxiv.org/abs/2411.15397v1
- Date: Sat, 23 Nov 2024 00:47:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:21:21.390475
- Title: Efficient Online Inference of Vision Transformers by Training-Free Tokenization
- Title(参考訳): 学習自由トークン化による視覚変換器の効率的なオンライン推論
- Authors: Leonidas Gee, Wing Yan Li, Viktoriia Sharmanska, Novi Quadrianto,
- Abstract要約: 我々は、性能とランタイムを維持しながら、エネルギーコストを削減できるトレーニング不要の方法である、textbfVisual Word Tokenizer$(VWT)を紹介した。
以上の結果から,VWTは効率の良いオンライン推論に適しており,性能に限界があることが明らかとなった。
- 参考スコア(独自算出の注目度): 8.773425104135107
- License:
- Abstract: The cost of deploying vision transformers increasingly represents a barrier to wider industrial adoption. Existing compression requires additional end-to-end fine-tuning or incurs a significant drawback to runtime, thus making them ill-suited for online inference. We introduce the $\textbf{Visual Word Tokenizer}$ (VWT), a training-free method for reducing energy costs while retaining performance and runtime. The VWT groups patches (visual subwords) that are frequently used into visual words while infrequent ones remain intact. To do so, intra-image or inter-image statistics are leveraged to identify similar visual concepts for compression. Experimentally, we demonstrate a reduction in wattage of up to 19% with only a 20% increase in runtime at most. Comparative approaches of 8-bit quantization and token merging achieve a lower or similar energy efficiency but exact a higher toll on runtime (up to $2\times$ or more). Our results indicate that VWTs are well-suited for efficient online inference with a marginal compromise on performance.
- Abstract(参考訳): ビジョントランスフォーマーの展開コストは、より広範な産業導入の障壁となっている。
既存の圧縮には、追加のエンドツーエンドの微調整が必要か、あるいはランタイムに重大な欠点があるため、オンライン推論には適さない。
我々は、性能とランタイムを維持しながら、エネルギーコストを削減できるトレーニング不要の方法である$\textbf{Visual Word Tokenizer}$ (VWT)を紹介した。
VWTグループパッチ (visual subwords) は、しばしば視覚的な単語に使用されるが、まれなものはそのまま残る。
そのため、画像内または画像間統計を利用して、圧縮の類似した視覚概念を識別する。
実験では、最大19%のワットを減らし、最大20%のランタイムの増加しか示さなかった。
8ビット量子化とトークンのマージの比較アプローチは、より低いか類似したエネルギー効率を実現するが、実行時(最大$2\times$以上)に正確に高いトーラスを実現する。
以上の結果から,VWTは効率の良いオンライン推論に適しており,性能に限界があることが明らかとなった。
関連論文リスト
- Adaptive Layer Selection for Efficient Vision Transformer Fine-Tuning [18.776903525210933]
我々は、$textbfALaST$(textitAdaptive Layer Selection Fine-Tuning for Vision Transformers$)と呼ばれるViTの効率的な微調整方法を紹介した。
我々のアプローチは、すべての層が微調整中に等しく重要であるわけではなく、その重要性が現在のミニバッチによって異なるという観察に基づいている。
この適応型計算アロケーションは,計算資源の分散に最適に近いスケジュールを実現できることを示す。
論文 参考訳(メタデータ) (2024-08-16T11:27:52Z) - Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮
しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T10:36:43Z) - Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget [53.311109531586844]
大規模T2I拡散変圧器モデルの低コスト化を実証する。
我々は16億のパラメータスパーストランスをわずか1890ドルの経済的コストで訓練し、ゼロショット世代で12.7 FIDを達成する。
我々は、マイクロ予算での大規模拡散モデルのトレーニングをさらに民主化するために、エンドツーエンドのトレーニングパイプラインをリリースすることを目指している。
論文 参考訳(メタデータ) (2024-07-22T17:23:28Z) - Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。
Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。
我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文 参考訳(メタデータ) (2024-05-23T15:34:53Z) - PPT: Token Pruning and Pooling for Efficient Vision Transformers [7.792045532428676]
我々は新しいアクセラレーションフレームワーク、すなわちトークン・プルーニング・アンド・プール変換器(PPT)を提案する。
PPTは、トレーニング可能なパラメータを追加せずに、トークンプーリングとトークンプーリングの両方をViTsに統合する。
37%以上のFLOPを削減し、ImageNetデータセットの精度低下なしに、DeiT-Sのスループットを45%以上改善する。
論文 参考訳(メタデータ) (2023-10-03T05:55:11Z) - Joint Token Pruning and Squeezing Towards More Aggressive Compression of
Vision Transformers [2.0442992958844517]
視覚変換器を高効率で圧縮するための新しいTPS(Token Pruning & Squeezing Module)を提案する。
TPSは、プルーニングされたトークンの情報を、一方向近傍のマッチングと類似性に基づく融合ステップを介して、部分的な予約トークンに絞り込む。
提案手法は,DeiT-tinyを超えるスループットを向上し,精度はDeiT-tinyより4.78%向上する。
論文 参考訳(メタデータ) (2023-04-21T02:59:30Z) - Super Vision Transformer [131.4777773281238]
ImageNetの実験結果から, 我々のSuperViTは, 性能の向上とともに, ViTモデルの計算コストを大幅に削減できることが示された。
我々のSuperViTは、効率的な視覚変換器に関する既存の研究よりも優れています。
論文 参考訳(メタデータ) (2022-05-23T15:42:12Z) - ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。
ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。
以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文 参考訳(メタデータ) (2021-10-11T14:45:00Z) - Chasing Sparsity in Vision Transformers: An End-to-End Exploration [127.10054032751714]
ビジョン・トランスフォーマー(ViT)は最近爆発的な人気を博したが、その巨大なモデルサイズとトレーニングコストは依然として大きなものだ。
本稿では、達成可能な精度を犠牲にすることなく、トレーニングメモリのオーバーヘッドと推論の複雑さの両方を削減することを目的とする。
具体的には、完全なViTをトレーニングする代わりに、固定された小さなパラメータ予算に固執しながら、スパースワークを動的に抽出し、訓練する。
論文 参考訳(メタデータ) (2021-06-08T17:18:00Z) - Patch Slimming for Efficient Vision Transformers [107.21146699082819]
与えられたネットワーク上で冗長な計算を行うことにより,視覚変換器の効率性について検討する。
我々は、トップダウンパラダイムで無駄なパッチを捨てる、新しいパッチスリム化アプローチを提案する。
ベンチマークによる実験結果から,提案手法は視覚変換器の計算コストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2021-06-05T09:46:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。