論文の概要: Pruning One More Token is Enough: Leveraging Latency-Workload Non-Linearities for Vision Transformers on the Edge
- arxiv url: http://arxiv.org/abs/2407.05941v3
- Date: Wed, 11 Sep 2024 21:53:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 21:20:46.326654
- Title: Pruning One More Token is Enough: Leveraging Latency-Workload Non-Linearities for Vision Transformers on the Edge
- Title(参考訳): エッジ上のヴィジュアルトランスフォーマーにレイテンシ-ワークロード非Linearitiesを活用する
- Authors: Nick John Eliopoulos, Purvish Jajal, James Davis, Gaowen Liu, George K. Thiravathukal, Yung-Hsiang Lu,
- Abstract要約: 本稿では,小型ワークロードを対象としたエッジデバイスに視覚変換器を効率よくデプロイする方法について検討する。
最近の手法では、トークンを除去またはマージすることで、トランスフォーマーニューラルネットワークのレイテンシを小さくする。
第2に,非線形レイテンシ-ワークロード関係を利用してトークンプルーニングスケジュールを決定する。第3に,このスケジュールを利用したトレーニング不要のトークンプルーニング手法を示す。
- 参考スコア(独自算出の注目度): 5.1946372711105315
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper investigates how to efficiently deploy vision transformers on edge devices for small workloads. Recent methods reduce the latency of transformer neural networks by removing or merging tokens, with small accuracy degradation. However, these methods are not designed with edge device deployment in mind: they do not leverage information about the latency-workload trends to improve efficiency. We address this shortcoming in our work. First, we identify factors that affect ViT latency-workload relationships. Second, we determine token pruning schedule by leveraging non-linear latency-workload relationships. Third, we demonstrate a training-free, token pruning method utilizing this schedule. We show other methods may increase latency by 2-30%, while we reduce latency by 9-26%. For similar latency (within 5.2% or 7ms) across devices we achieve 78.6%-84.5% ImageNet1K accuracy, while the state-of-the-art, Token Merging, achieves 45.8%-85.4%.
- Abstract(参考訳): 本稿では,小型ワークロードを対象としたエッジデバイスに視覚変換器を効率よくデプロイする方法について検討する。
最近の手法では、トークンを除去またはマージすることで、トランスフォーマーニューラルネットワークのレイテンシを小さくする。
しかし、これらの手法はエッジデバイスの配置を念頭に設計されておらず、レイテンシー-ワークロードのトレンドに関する情報を活用して効率を向上しない。
私たちはこの欠点を我々の仕事で解決する。
まず、ViTレイテンシー-ワークロードの関係に影響を与える要因を特定する。
次に,非線形遅延-ワークロード関係を利用してトークンのプルーニングスケジュールを決定する。
第3に、このスケジュールを利用したトレーニング不要なトークンプルーニング手法を実証する。
他の手法ではレイテンシを2~30%増加させますが、レイテンシを9~26%削減します。
デバイス間での同様のレイテンシ(5.2%または7ms)では、78.6%-84.5%のImageNet1K精度が達成され、最先端のToken Mergingは45.8%-85.4%である。
関連論文リスト
- Joint Pruning and Channel-wise Mixed-Precision Quantization for Efficient Deep Neural Networks [10.229120811024162]
ディープニューラルネットワーク(DNN)は、エッジデバイスへのデプロイメントに重大な課題をもたらす。
この問題に対処する一般的なアプローチは、プルーニングと混合精度量子化である。
そこで本研究では,軽量な勾配探索を用いて共同で適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T08:07:02Z) - No Token Left Behind: Efficient Vision Transformer via Dynamic Token
Idling [55.203866875294516]
視覚変換器(ViT)はコンピュータビジョンタスクにおいて優れた性能を示した。
ViTの計算負担を軽減するために,様々なトークンプルーニング技術が導入されている。
性能と効率の優れたトレードオフを実現するための動的トークンアイドルベースのIdleViTを提案する。
論文 参考訳(メタデータ) (2023-10-09T12:10:41Z) - Joint Token Pruning and Squeezing Towards More Aggressive Compression of
Vision Transformers [2.0442992958844517]
視覚変換器を高効率で圧縮するための新しいTPS(Token Pruning & Squeezing Module)を提案する。
TPSは、プルーニングされたトークンの情報を、一方向近傍のマッチングと類似性に基づく融合ステップを介して、部分的な予約トークンに絞り込む。
提案手法は,DeiT-tinyを超えるスループットを向上し,精度はDeiT-tinyより4.78%向上する。
論文 参考訳(メタデータ) (2023-04-21T02:59:30Z) - SwiftFormer: Efficient Additive Attention for Transformer-based
Real-time Mobile Vision Applications [98.90623605283564]
本稿では,2次行列乗算演算を線形要素乗算に効果的に置き換える,新しい効率的な付加的注意機構を提案する。
我々は"SwiftFormer"と呼ばれる一連のモデルを構築し、精度とモバイル推論速度の両面で最先端のパフォーマンスを達成する。
私たちの小さなバージョンでは、iPhone 14で8.5%のImageNet-1Kの精度が達成され、そのレイテンシは0.8msで、MobileViT-v2より2倍速くなります。
論文 参考訳(メタデータ) (2023-03-27T17:59:58Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Fast-iTPN: Integrally Pre-Trained Transformer Pyramid Network with Token
Migration [138.24994198567794]
ITPNは2つの精巧な設計で生まれ、1)視覚変換器を用いた最初の事前訓練型特徴ピラミッド(ViT)である。
Fast-iTPNは推論手順を最大70%高速化でき、性能損失は無視できる。
論文 参考訳(メタデータ) (2022-11-23T06:56:12Z) - Pushing the Limits of Asynchronous Graph-based Object Detection with
Event Cameras [62.70541164894224]
低計算を維持しながら、そのようなモデルの深さと複雑さを拡大できるアーキテクチャ選択をいくつか導入する。
我々の手法は、密度の高いグラフニューラルネットワークよりも3.7倍高速に動作し、前方通過はわずか8.4msである。
論文 参考訳(メタデータ) (2022-11-22T15:14:20Z) - Peeling the Onion: Hierarchical Reduction of Data Redundancy for
Efficient Vision Transformer Training [110.79400526706081]
ビジョントランス (ViT) は近年多くのアプリケーションで成功を収めているが、その計算量とメモリ使用量によって一般化が制限されている。
従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。
本稿では,3つのスパースの観点から,Tri-Level E-ViTと呼ばれるエンドツーエンドの効率的なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-19T21:15:47Z) - Minimum Latency Training of Sequence Transducers for Streaming
End-to-End Speech Recognition [38.28868751443619]
本稿では,シーケンストランスデューサモデルの遅延を明示的にモデル化し,遅延を低減するための新しいトレーニング手法を提案する。
実験結果から,提案した最小レイテンシトレーニングにより,WER劣化率0.7%において,因果コンバータ-Tのレイテンシを220msから27msに短縮できることがわかった。
論文 参考訳(メタデータ) (2022-11-04T09:19:59Z) - Delta Keyword Transformer: Bringing Transformers to the Edge through
Dynamically Pruned Multi-Head Self-Attention [4.925939498983408]
マルチヘッド自己アテンションはトランスフォーマーネットワークのコアを形成する。
本稿では,トークン間のデータの時間的安定性を利用して推論コストを削減する動的プルーニング手法を提案する。
実験の結果,元の98.4%の精度を維持しながら80%の操作を削減できることがわかった。
論文 参考訳(メタデータ) (2022-03-20T20:59:13Z) - Low-Latency Sequence-to-Sequence Speech Recognition and Translation by
Partial Hypothesis Selection [15.525314212209562]
チャンクベースインクリメンタル推論のための3つの遅延低減手法を提案する。
提案手法は低遅延音声翻訳にも適用可能であることを示す。
論文 参考訳(メタデータ) (2020-05-22T13:42:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。