論文の概要: Training Strategies for Vision Transformers for Object Detection
- arxiv url: http://arxiv.org/abs/2304.02186v1
- Date: Wed, 5 Apr 2023 02:04:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 13:48:21.553719
- Title: Training Strategies for Vision Transformers for Object Detection
- Title(参考訳): 物体検出のための視覚トランスフォーマの訓練戦略
- Authors: Apoorv Singh
- Abstract要約: 我々は,視覚変換器を用いた物体検出手法を最適化する手法を評価する。
我々の戦略は、たった3%のパフォーマンス低下のコストで、推論タイムを63%改善できることを示します。
我々は,これらの手法を用いて,トランスフォーマーをベースとしたヘビーなマルチビューネットワークを,予算制約のあるロボットプラットフォーム上に展開することを推奨する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-based Transformer have shown huge application in the perception module
of autonomous driving in terms of predicting accurate 3D bounding boxes, owing
to their strong capability in modeling long-range dependencies between the
visual features. However Transformers, initially designed for language models,
have mostly focused on the performance accuracy, and not so much on the
inference-time budget. For a safety critical system like autonomous driving,
real-time inference at the on-board compute is an absolute necessity. This
keeps our object detection algorithm under a very tight run-time budget. In
this paper, we evaluated a variety of strategies to optimize on the
inference-time of vision transformers based object detection methods keeping a
close-watch on any performance variations. Our chosen metric for these
strategies is accuracy-runtime joint optimization. Moreover, for actual
inference-time analysis we profile our strategies with float32 and float16
precision with TensorRT module. This is the most common format used by the
industry for deployment of their Machine Learning networks on the edge devices.
We showed that our strategies are able to improve inference-time by 63% at the
cost of performance drop of mere 3% for our problem-statement defined in
evaluation section. These strategies brings down Vision Transformers detectors
inference-time even less than traditional single-image based CNN detectors like
FCOS. We recommend practitioners use these techniques to deploy Transformers
based hefty multi-view networks on a budge-constrained robotic platform.
- Abstract(参考訳): 視覚ベースのトランスフォーマーは、視覚特徴間の長距離依存性をモデル化する能力が強かったため、正確な3dバウンディングボックスの予測という観点で、自動運転の知覚モジュールに大きな応用が見られた。
しかし、当初言語モデル向けに設計されたトランスフォーマーは、主に性能の正確性に重点を置いており、推論時間予算にはあまり依存していない。
自動運転のような安全クリティカルなシステムでは、オンボードコンピューティングでのリアルタイムの推論が絶対必要である。
これにより、オブジェクト検出アルゴリズムは、非常に厳しいランタイム予算に保たれます。
本稿では,視覚変換器をベースとした物体検出手法を最適化する様々な手法の評価を行った。
これらの戦略の選択基準は精度-実行時共同最適化である。
さらに,実際の推論時間解析ではfloat32とfloat16の精度をtensorrtモジュールで検証した。
これは、エッジデバイスに機械学習ネットワークをデプロイするために業界が使用する最も一般的なフォーマットである。
提案手法は,評価部で定義された問題記述に対して,性能低下のコストをわずか3%に抑えることで,推論時間を63%改善できることを実証した。
これらの戦略により、ビジョントランスフォーマー検出器はFCOSのような従来の単一画像ベースのCNN検出器よりも推論時間が少ない。
トランスフォーマーをベースとする多視点ネットワークをブッジュに制約されたロボットプラットフォーム上に展開するためには,これらのテクニックを実践者に推奨する。
関連論文リスト
- Transformers in Unsupervised Structure-from-Motion [19.43053045216986]
トランスフォーマーはディープラーニングベースのコンピュータビジョンに革命をもたらし、パフォーマンスが向上し、自然の腐敗や敵の攻撃に対する堅牢性も向上した。
本研究では, モノクロ画素の深度, エゴ車両のトランスフォーメーションと回転, カメラの焦点長と主点を同時に予測する, 頑健なトランスフォーマーに基づくモノクロSfM法を提案する。
我々の研究は、トランスフォーマーベースのアーキテクチャは、自然な汚職や標的外攻撃に対してより堅牢でありながら、同等のパフォーマンスを実現していることを示している。
論文 参考訳(メタデータ) (2023-12-16T20:00:34Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - Transformers in Self-Supervised Monocular Depth Estimation with Unknown
Camera Intrinsics [13.7258515433446]
自己教師付き単眼深度推定は3次元シーン理解において重要な課題である。
自己教師付き単眼深度推定のための視覚変換器の適応方法を示す。
本研究は,トランスフォーマーをベースとしたアーキテクチャが,より堅牢で汎用性の高い性能を実現する方法を示す。
論文 参考訳(メタデータ) (2022-02-07T13:17:29Z) - AdaViT: Adaptive Vision Transformers for Efficient Image Recognition [78.07924262215181]
AdaViTは、パッチ、セルフアテンションヘッド、およびトランスフォーマーブロックを使用するための利用ポリシーを導出する適応フレームワークである。
本手法は,0.8%の精度で,最先端のビジョントランスに比べて2倍以上の効率向上を実現している。
論文 参考訳(メタデータ) (2021-11-30T18:57:02Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - Enhancing Object Detection for Autonomous Driving by Optimizing Anchor
Generation and Addressing Class Imbalance [0.0]
本研究では,より高速なR-CNNに基づく拡張型2次元物体検出器を提案する。
より高速なr-cnnに対する修正は計算コストを増加させず、他のアンカーベースの検出フレームワークを最適化するために容易に拡張できる。
論文 参考訳(メタデータ) (2021-04-08T16:58:31Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Optimizing Inference Performance of Transformers on CPUs [0.0]
トランスフォーマーベースのモデル(BERTなど)は、検索、翻訳、質問応答など、多くの重要なWebサービスを支えている。
本稿では,cpu上でのトランスフォーマモデル参照のスケーラビリティと性能に関する実証分析を行う。
論文 参考訳(メタデータ) (2021-02-12T17:01:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。