論文の概要: Enabling and Accelerating Dynamic Vision Transformer Inference for
Real-Time Applications
- arxiv url: http://arxiv.org/abs/2212.02687v1
- Date: Tue, 6 Dec 2022 01:10:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 17:45:23.160555
- Title: Enabling and Accelerating Dynamic Vision Transformer Inference for
Real-Time Applications
- Title(参考訳): リアルタイム応用のための動的視覚トランスフォーマー推論の実現と高速化
- Authors: Kavya Sreedhar, Jason Clemons, Rangharajan Venkatesan, Stephen W.
Keckler, and Mark Horowitz
- Abstract要約: 我々は視覚変換器を入力画像とは独立にシステムの動的リソース制約を満たすように適応する。
事前訓練されたモデルは、畳み込み層と自己注意層をスキップするのにかなり回復力があることを示します。
トレーニングを必要とせず,動的リアルタイム推論のための低オーバーヘッドシステムを構築した。
- 参考スコア(独自算出の注目度): 1.4182157117635368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many state-of-the-art deep learning models for computer vision tasks are
based on the transformer architecture. Such models can be computationally
expensive and are typically statically set to meet the deployment scenario.
However, in real-time applications, the resources available for every inference
can vary considerably and be smaller than what state-of-the-art models use. We
can use dynamic models to adapt the model execution to meet real-time
application resource constraints. While prior dynamic work has primarily
minimized resource utilization for less complex input images while maintaining
accuracy and focused on CNNs and early transformer models such as BERT, we
adapt vision transformers to meet system dynamic resource constraints,
independent of the input image. We find that unlike early transformer models,
recent state-of-the-art vision transformers heavily rely on convolution layers.
We show that pretrained models are fairly resilient to skipping computation in
the convolution and self-attention layers, enabling us to create a low-overhead
system for dynamic real-time inference without additional training. Finally, we
create a optimized accelerator for these dynamic vision transformers in a 5nm
technology. The PE array occupies 2.26mm$^2$ and is 17 times faster than a
NVIDIA TITAN V GPU for state-of-the-art transformer-based models for semantic
segmentation.
- Abstract(参考訳): コンピュータビジョンタスクのための最先端のディープラーニングモデルの多くは、トランスフォーマーアーキテクチャに基づいている。
このようなモデルは計算コストが高く、通常は配置シナリオを満たすように静的に設定される。
しかし、リアルタイムアプリケーションでは、すべての推論で利用可能なリソースは、最先端のモデルが使用するものよりも大きく、小さくなり得る。
動的モデルを使用してモデルの実行を適応し、リアルタイムのアプリケーションリソース制約を満たすことができます。
従来の動的処理は,精度を維持しつつ,CNNやBERTなどの初期変圧器モデルに焦点を合わせながら,より複雑な入力画像に対して資源利用を最小化してきたが,我々は,入力画像とは独立に,システムの動的リソース制約を満たすように視覚変換器を適用する。
初期のトランスフォーマーモデルとは異なり、最近の最先端の視覚トランスフォーマーは畳み込み層に大きく依存している。
事前学習されたモデルは、畳み込み層や自己アテンション層で計算をスキップするのにかなり耐性があることを示し、追加のトレーニングなしで動的リアルタイム推論のための低オーバーヘッドシステムを作成することができる。
最後に、これらのダイナミックビジョントランスフォーマーに最適化された加速器を5nm技術で開発する。
PE配列は2.26mm$^2$で、セマンティックセグメンテーションのための最先端トランスフォーマーベースのモデルのためのNVIDIA TITAN V GPUより17倍高速である。
関連論文リスト
- Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - TransCODE: Co-design of Transformers and Accelerators for Efficient
Training and Inference [6.0093441900032465]
本稿では,アクセラレータの設計空間におけるトランスフォーマー推論とトレーニングをシミュレートするフレームワークを提案する。
我々はこのシミュレータとTransCODEと呼ばれる共同設計手法を併用して最適性能のモデルを得る。
得られた変圧器・加速器対は、最先端の対よりも0.3%高い精度を達成する。
論文 参考訳(メタデータ) (2023-03-27T02:45:18Z) - Reversible Vision Transformers [74.3500977090597]
Reversible Vision Transformersは、視覚認識のためのメモリ効率の良いアーキテクチャである。
我々は2つの人気モデル、すなわちビジョン変換器とマルチスケールビジョン変換器を可逆的変種に適用する。
より深いモデルでは、アクティベーションを再計算する際の計算負荷が過大評価されている。
論文 参考訳(メタデータ) (2023-02-09T18:59:54Z) - Event-based Monocular Dense Depth Estimation with Recurrent Transformers [40.82085590645538]
イベントカメラは高時間分解能と高ダイナミックレンジを提供する。
本稿では,再帰変換器,すなわちEReFormerを用いたイベントベース単分子深度推定器を提案する。
私たちの研究は、イベントベースのビジョンコミュニティで素晴らしいトランスフォーマーを開発するために、さらなる研究を引き付けます。
論文 参考訳(メタデータ) (2022-12-06T07:06:59Z) - Transformer Acceleration with Dynamic Sparse Attention [20.758709319088865]
本稿では,トランスフォーマーの注意における動的間隔を効果的に活用する動的スパース注意(DSA)を提案する。
われわれのアプローチは、精度とモデルの複雑さのトレードオフを改善することができる。
論文 参考訳(メタデータ) (2021-10-21T17:31:57Z) - Shifted Chunk Transformer for Spatio-Temporal Representational Learning [24.361059477031162]
我々は、純粋な自己注意ブロックを持つシフトチャンク変換器を構築する。
このトランスフォーマーは、小さなパッチからグローバルなビデオクリップまで、階層的な時間的特徴を学習することができる。
Kinetics, Kinetics-600, UCF101, HMDB51の最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2021-08-26T04:34:33Z) - VideoLightFormer: Lightweight Action Recognition using Transformers [8.871042314510788]
本稿では,新しい軽量なアクション認識アーキテクチャであるVideoLightFormerを提案する。
分解された方法で、2次元畳み込み時間ネットワークを変換器で慎重に拡張する。
我々は,EPIC-KITCHENS-100とSone-SV-V-Something2データセットの高効率設定におけるビデオLightFormerの評価を行った。
論文 参考訳(メタデータ) (2021-07-01T13:55:52Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。