論文の概要: TRT-ViT: TensorRT-oriented Vision Transformer
- arxiv url: http://arxiv.org/abs/2205.09579v1
- Date: Thu, 19 May 2022 14:20:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 22:13:35.699147
- Title: TRT-ViT: TensorRT-oriented Vision Transformer
- Title(参考訳): TRT-ViT:TensorRT指向ビジョントランス
- Authors: Xin Xia, Jiashi Li, Jie Wu, Xing Wang, Mingkai Wang, Xuefeng Xiao, Min
Zheng, Rui Wang
- Abstract要約: RT指向トランスフォーマーのファミリが提示され、略称はRT-ViTである。
大規模な実験により、RTT-ViTは既存のConvNetとビジョントランスフォーマーを著しく上回っている。
- 参考スコア(独自算出の注目度): 18.258194202184544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We revisit the existing excellent Transformers from the perspective of
practical application. Most of them are not even as efficient as the basic
ResNets series and deviate from the realistic deployment scenario. It may be
due to the current criterion to measure computation efficiency, such as FLOPs
or parameters is one-sided, sub-optimal, and hardware-insensitive. Thus, this
paper directly treats the TensorRT latency on the specific hardware as an
efficiency metric, which provides more comprehensive feedback involving
computational capacity, memory cost, and bandwidth. Based on a series of
controlled experiments, this work derives four practical guidelines for
TensorRT-oriented and deployment-friendly network design, e.g., early CNN and
late Transformer at stage-level, early Transformer and late CNN at block-level.
Accordingly, a family of TensortRT-oriented Transformers is presented,
abbreviated as TRT-ViT. Extensive experiments demonstrate that TRT-ViT
significantly outperforms existing ConvNets and vision Transformers with
respect to the latency/accuracy trade-off across diverse visual tasks, e.g.,
image classification, object detection and semantic segmentation. For example,
at 82.7% ImageNet-1k top-1 accuracy, TRT-ViT is 2.7$\times$ faster than CSWin
and 2.0$\times$ faster than Twins. On the MS-COCO object detection task,
TRT-ViT achieves comparable performance with Twins, while the inference speed
is increased by 2.8$\times$.
- Abstract(参考訳): 我々は,既存の優れたトランスフォーマーを実用化の観点から再考する。
それらのほとんどは、ベーシックなresnetsシリーズほど効率的ではなく、現実的なデプロイメントシナリオから逸脱している。
FLOPやパラメータは一方的、準最適、ハードウェア非感受性といった計算効率を測る現在の基準が原因かもしれない。
そこで本稿では,計算能力,メモリコスト,帯域幅に関するより包括的なフィードバックを提供するため,ハードウェアのテンソルトレイテンシを効率指標として直接扱う。
一連の制御された実験に基づいて、この研究はTensorRT指向でデプロイに優しいネットワーク設計のための4つの実践的ガイドライン(例えば、早期CNNと後期CNNのステージレベル、早期トランスフォーマーと後期CNNのブロックレベル)を導出した。
そのため、TRT-ViTと略して、TensortRT指向トランスフォーマーのファミリーが提示される。
TRT-ViTは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、様々な視覚的タスクにおけるレイテンシ/精度のトレードオフに関して、既存のConvNetやビジョントランスフォーマーを著しく上回っている。
例えば、82.7%のImageNet-1kトップ-1精度で、TRT-ViTはCSWinより2.7$\times$、Twinsより2.0$\times$である。
MS-COCOオブジェクト検出タスクでは、RTT-ViTはTwinsと同等のパフォーマンスを達成し、推論速度は2.8$\times$に向上する。
関連論文リスト
- PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - TerViT: An Efficient Ternary Vision Transformer [21.348788407233265]
視覚変換器(ViT)は、様々な視覚的タスクにおいて大きな可能性を秘めているが、リソース制約されたデバイスに展開する際には、高価な計算とメモリコストの問題に悩まされている。
実測値と三次パラメータ間の大きな損失表面ギャップに挑戦する3次視覚変換器(TerViT)を導入する。
論文 参考訳(メタデータ) (2022-01-20T08:29:19Z) - FQ-ViT: Fully Quantized Vision Transformer without Retraining [13.82845665713633]
本稿では,量子変換器の性能劣化と推論の複雑さを低減するための系統的手法を提案する。
完全に量子化された視覚変換器上で、我々は初めて精度の劣化(1%)を達成した。
論文 参考訳(メタデータ) (2021-11-27T06:20:53Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - ConvNets vs. Transformers: Whose Visual Representations are More
Transferable? [49.62201738334348]
本研究では,15個のシングルタスクおよびマルチタスク性能評価において,ConvNetと視覚変換器の伝達学習能力について検討する。
13の下流タスクでTransformerベースのバックボーンの一貫性のあるアドバンテージを観察した。
論文 参考訳(メタデータ) (2021-08-11T16:20:38Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - CvT: Introducing Convolutions to Vision Transformers [44.74550305869089]
畳み込み視覚変換器(CvT)は、視覚変換器(ViT)の性能と効率を向上する。
新しいアーキテクチャはViTに畳み込み、両方の設計で最高のものを生み出す。
論文 参考訳(メタデータ) (2021-03-29T17:58:22Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。