論文の概要: Enabling and Accelerating Dynamic Vision Transformer Inference for
Real-Time Applications
- arxiv url: http://arxiv.org/abs/2212.02687v1
- Date: Tue, 6 Dec 2022 01:10:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 17:45:23.160555
- Title: Enabling and Accelerating Dynamic Vision Transformer Inference for
Real-Time Applications
- Title(参考訳): リアルタイム応用のための動的視覚トランスフォーマー推論の実現と高速化
- Authors: Kavya Sreedhar, Jason Clemons, Rangharajan Venkatesan, Stephen W.
Keckler, and Mark Horowitz
- Abstract要約: 我々は視覚変換器を入力画像とは独立にシステムの動的リソース制約を満たすように適応する。
事前訓練されたモデルは、畳み込み層と自己注意層をスキップするのにかなり回復力があることを示します。
トレーニングを必要とせず,動的リアルタイム推論のための低オーバーヘッドシステムを構築した。
- 参考スコア(独自算出の注目度): 1.4182157117635368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many state-of-the-art deep learning models for computer vision tasks are
based on the transformer architecture. Such models can be computationally
expensive and are typically statically set to meet the deployment scenario.
However, in real-time applications, the resources available for every inference
can vary considerably and be smaller than what state-of-the-art models use. We
can use dynamic models to adapt the model execution to meet real-time
application resource constraints. While prior dynamic work has primarily
minimized resource utilization for less complex input images while maintaining
accuracy and focused on CNNs and early transformer models such as BERT, we
adapt vision transformers to meet system dynamic resource constraints,
independent of the input image. We find that unlike early transformer models,
recent state-of-the-art vision transformers heavily rely on convolution layers.
We show that pretrained models are fairly resilient to skipping computation in
the convolution and self-attention layers, enabling us to create a low-overhead
system for dynamic real-time inference without additional training. Finally, we
create a optimized accelerator for these dynamic vision transformers in a 5nm
technology. The PE array occupies 2.26mm$^2$ and is 17 times faster than a
NVIDIA TITAN V GPU for state-of-the-art transformer-based models for semantic
segmentation.
- Abstract(参考訳): コンピュータビジョンタスクのための最先端のディープラーニングモデルの多くは、トランスフォーマーアーキテクチャに基づいている。
このようなモデルは計算コストが高く、通常は配置シナリオを満たすように静的に設定される。
しかし、リアルタイムアプリケーションでは、すべての推論で利用可能なリソースは、最先端のモデルが使用するものよりも大きく、小さくなり得る。
動的モデルを使用してモデルの実行を適応し、リアルタイムのアプリケーションリソース制約を満たすことができます。
従来の動的処理は,精度を維持しつつ,CNNやBERTなどの初期変圧器モデルに焦点を合わせながら,より複雑な入力画像に対して資源利用を最小化してきたが,我々は,入力画像とは独立に,システムの動的リソース制約を満たすように視覚変換器を適用する。
初期のトランスフォーマーモデルとは異なり、最近の最先端の視覚トランスフォーマーは畳み込み層に大きく依存している。
事前学習されたモデルは、畳み込み層や自己アテンション層で計算をスキップするのにかなり耐性があることを示し、追加のトレーニングなしで動的リアルタイム推論のための低オーバーヘッドシステムを作成することができる。
最後に、これらのダイナミックビジョントランスフォーマーに最適化された加速器を5nm技術で開発する。
PE配列は2.26mm$^2$で、セマンティックセグメンテーションのための最先端トランスフォーマーベースのモデルのためのNVIDIA TITAN V GPUより17倍高速である。
関連論文リスト
- PredFormer: Transformers Are Effective Spatial-Temporal Predictive Learners [65.93130697098658]
本稿では、予測学習のための純粋なトランスフォーマーベースのフレームワークであるPredFormerを提案する。
PredFormerは、リカレントフリーでトランスフォーマーベースの設計で、シンプルかつ効率的である。
合成および実世界のデータセットに関する実験は、PredFormerが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-10-07T03:52:06Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation [73.31524865643709]
本稿では,Hourglass Tokenizer (HoT) と呼ばれるプラグアンドプレイのプルーニング・アンド・リカバリフレームワークを提案する。
私たちのHoDTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで終了します。
提案手法は,従来のVPTモデルと比較して高い効率性と推定精度を両立させることができる。
論文 参考訳(メタデータ) (2023-11-20T18:59:51Z) - Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design [84.34416126115732]
スケーリング法則は、最近、与えられた計算時間に最適なモデルサイズ(パラメータの数)を導出するために用いられる。
我々は、幅や深さなどの計算最適モデル形状を推測する手法を進化させ、改良し、視覚変換器でこれを実装した。
我々の形状最適化型視覚変換器SoViTは、同等の計算量で事前訓練されているにもかかわらず、サイズが2倍以上のモデルと競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-22T13:39:28Z) - Dynamic Mobile-Former: Strengthening Dynamic Convolution with Attention
and Residual Connection in Kernel Space [4.111899441919165]
Dynamic Mobile-Formerは、効率的な演算子と調和させることで動的畳み込みの能力を最大化する。
PVT.A Transformer in Dynamic Mobile-Formerは、グローバルな機能をランダムに計算するだけである。
Dynamic MobileNetとTransformerのブリッジは、ローカル機能とグローバル機能の双方向統合を可能にする。
論文 参考訳(メタデータ) (2023-04-13T05:22:24Z) - Tutel: Adaptive Mixture-of-Experts at Scale [20.036168971435306]
深層学習モデルを数兆以上のパラメータに拡張するために、計算コストを固定化するために、疎ゲート混合(MoE)が広く採用されている。
我々は、動的適応並列性とパイプライン化を備えたMoEのための高度にスケーラブルなスタック設計と実装であるFlexを紹介します。
我々の評価では、Flexは、最先端のコンピュータビジョンアーキテクチャであるSwin Transformer V2上に構築された実世界のMoEベースのモデルSwinV2-MoEを効率的に効率的に実行している。
論文 参考訳(メタデータ) (2022-06-07T15:20:20Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。