Fugu-MT 論文翻訳(概要): Enabling and Accelerating Dynamic Vision Transformer Inference for Real-Time Applications

論文の概要: Enabling and Accelerating Dynamic Vision Transformer Inference for Real-Time Applications

arxiv url: http://arxiv.org/abs/2212.02687v1
Date: Tue, 6 Dec 2022 01:10:31 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-07 17:45:23.160555
Title: Enabling and Accelerating Dynamic Vision Transformer Inference for Real-Time Applications
Title（参考訳）: リアルタイム応用のための動的視覚トランスフォーマー推論の実現と高速化
Authors: Kavya Sreedhar, Jason Clemons, Rangharajan Venkatesan, Stephen W. Keckler, and Mark Horowitz
Abstract要約: 我々は視覚変換器を入力画像とは独立にシステムの動的リソース制約を満たすように適応する。事前訓練されたモデルは、畳み込み層と自己注意層をスキップするのにかなり回復力があることを示します。トレーニングを必要とせず,動的リアルタイム推論のための低オーバーヘッドシステムを構築した。
参考スコア（独自算出の注目度）: 1.4182157117635368
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Many state-of-the-art deep learning models for computer vision tasks are based on the transformer architecture. Such models can be computationally expensive and are typically statically set to meet the deployment scenario. However, in real-time applications, the resources available for every inference can vary considerably and be smaller than what state-of-the-art models use. We can use dynamic models to adapt the model execution to meet real-time application resource constraints. While prior dynamic work has primarily minimized resource utilization for less complex input images while maintaining accuracy and focused on CNNs and early transformer models such as BERT, we adapt vision transformers to meet system dynamic resource constraints, independent of the input image. We find that unlike early transformer models, recent state-of-the-art vision transformers heavily rely on convolution layers. We show that pretrained models are fairly resilient to skipping computation in the convolution and self-attention layers, enabling us to create a low-overhead system for dynamic real-time inference without additional training. Finally, we create a optimized accelerator for these dynamic vision transformers in a 5nm technology. The PE array occupies 2.26mm$^2$ and is 17 times faster than a NVIDIA TITAN V GPU for state-of-the-art transformer-based models for semantic segmentation.
Abstract（参考訳）: コンピュータビジョンタスクのための最先端のディープラーニングモデルの多くは、トランスフォーマーアーキテクチャに基づいている。このようなモデルは計算コストが高く、通常は配置シナリオを満たすように静的に設定される。しかし、リアルタイムアプリケーションでは、すべての推論で利用可能なリソースは、最先端のモデルが使用するものよりも大きく、小さくなり得る。動的モデルを使用してモデルの実行を適応し、リアルタイムのアプリケーションリソース制約を満たすことができます。従来の動的処理は,精度を維持しつつ,CNNやBERTなどの初期変圧器モデルに焦点を合わせながら,より複雑な入力画像に対して資源利用を最小化してきたが,我々は,入力画像とは独立に,システムの動的リソース制約を満たすように視覚変換器を適用する。初期のトランスフォーマーモデルとは異なり、最近の最先端の視覚トランスフォーマーは畳み込み層に大きく依存している。事前学習されたモデルは、畳み込み層や自己アテンション層で計算をスキップするのにかなり耐性があることを示し、追加のトレーニングなしで動的リアルタイム推論のための低オーバーヘッドシステムを作成することができる。最後に、これらのダイナミックビジョントランスフォーマーに最適化された加速器を5nm技術で開発する。 PE配列は2.26mm$^2$で、セマンティックセグメンテーションのための最先端トランスフォーマーベースのモデルのためのNVIDIA TITAN V GPUより17倍高速である。

関連論文リスト

PredFormer: Transformers Are Effective Spatial-Temporal Predictive Learners [65.93130697098658]
本稿では、予測学習のための純粋なトランスフォーマーベースのフレームワークであるPredFormerを提案する。 PredFormerは、リカレントフリーでトランスフォーマーベースの設計で、シンプルかつ効率的である。合成および実世界のデータセットに関する実験は、PredFormerが最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2024-10-07T03:52:06Z)
OmniBal: Towards Fast Instruction-Tuning for Vision-Language Models via Omniverse Computation Balance [65.48009829137824]
視覚言語命令チューニングモデルにおける大規模3D並列トレーニングは、異なるデバイス間で不均衡な計算負荷をもたらす。我々は、データ、モデル、メモリの観点から計算負荷を再均衡させ、デバイス間でよりバランスのとれた計算を実現する。提案手法の有効性と一般化性は,様々なモデルやデータセットにまたがってさらに検証される。
論文参考訳（メタデータ） (2024-07-30T12:02:58Z)
Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文参考訳（メタデータ） (2024-04-02T17:58:49Z)
Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文参考訳（メタデータ） (2024-03-03T08:25:04Z)
Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation [73.31524865643709]
本稿では,Hourglass Tokenizer (HoT) と呼ばれるプラグアンドプレイのプルーニング・アンド・リカバリフレームワークを提案する。私たちのHoDTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで終了します。提案手法は,従来のVPTモデルと比較して高い効率性と推定精度を両立させることができる。
論文参考訳（メタデータ） (2023-11-20T18:59:51Z)
Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design [84.34416126115732]
スケーリング法則は、最近、与えられた計算時間に最適なモデルサイズ(パラメータの数)を導出するために用いられる。我々は、幅や深さなどの計算最適モデル形状を推測する手法を進化させ、改良し、視覚変換器でこれを実装した。我々の形状最適化型視覚変換器SoViTは、同等の計算量で事前訓練されているにもかかわらず、サイズが2倍以上のモデルと競合する結果を得る。
論文参考訳（メタデータ） (2023-05-22T13:39:28Z)
Dynamic Mobile-Former: Strengthening Dynamic Convolution with Attention and Residual Connection in Kernel Space [4.111899441919165]
Dynamic Mobile-Formerは、効率的な演算子と調和させることで動的畳み込みの能力を最大化する。 PVT.A Transformer in Dynamic Mobile-Formerは、グローバルな機能をランダムに計算するだけである。 Dynamic MobileNetとTransformerのブリッジは、ローカル機能とグローバル機能の双方向統合を可能にする。
論文参考訳（メタデータ） (2023-04-13T05:22:24Z)
Tutel: Adaptive Mixture-of-Experts at Scale [20.036168971435306]
深層学習モデルを数兆以上のパラメータに拡張するために、計算コストを固定化するために、疎ゲート混合(MoE)が広く採用されている。我々は、動的適応並列性とパイプライン化を備えたMoEのための高度にスケーラブルなスタック設計と実装であるFlexを紹介します。我々の評価では、Flexは、最先端のコンピュータビジョンアーキテクチャであるSwin Transformer V2上に構築された実世界のMoEベースのモデルSwinV2-MoEを効率的に効率的に実行している。
論文参考訳（メタデータ） (2022-06-07T15:20:20Z)
Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers [57.931830650323]
本稿では,事前学習および微調整型変圧器によるスケーリングの洞察について述べる。モデルのサイズだけでなく、モデル形状が下流の微調整に重要であることを示す。再設計したモデルにより、下流の微調整品質が向上する。
論文参考訳（メタデータ） (2021-09-22T12:29:15Z)
DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文参考訳（メタデータ） (2021-09-21T09:57:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。