論文の概要: Efficient Training for Visual Tracking with Deformable Transformer
- arxiv url: http://arxiv.org/abs/2309.02676v1
- Date: Wed, 6 Sep 2023 03:07:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 16:55:13.297892
- Title: Efficient Training for Visual Tracking with Deformable Transformer
- Title(参考訳): 変形型変圧器を用いた視覚追跡の効率的な訓練
- Authors: Qingmao Wei, Guotian Zeng, Bi Zeng
- Abstract要約: 本稿では、エンドツーエンドのビジュアルオブジェクト追跡フレームワークであるDETRackを紹介する。
本フレームワークは、変形可能なトランスデコーダがターゲットヘッドとして機能する効率的なエンコーダ・デコーダ構造を用いる。
トレーニングには,新しい1対多ラベルの割り当てと補助的認知技術を導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent Transformer-based visual tracking models have showcased superior
performance. Nevertheless, prior works have been resource-intensive, requiring
prolonged GPU training hours and incurring high GFLOPs during inference due to
inefficient training methods and convolution-based target heads. This intensive
resource use renders them unsuitable for real-world applications. In this
paper, we present DETRack, a streamlined end-to-end visual object tracking
framework. Our framework utilizes an efficient encoder-decoder structure where
the deformable transformer decoder acting as a target head, achieves higher
sparsity than traditional convolution heads, resulting in decreased GFLOPs. For
training, we introduce a novel one-to-many label assignment and an auxiliary
denoising technique, significantly accelerating model's convergence.
Comprehensive experiments affirm the effectiveness and efficiency of our
proposed method. For instance, DETRack achieves 72.9% AO on challenging GOT-10k
benchmarks using only 20% of the training epochs required by the baseline, and
runs with lower GFLOPs than all the transformer-based trackers.
- Abstract(参考訳): 最近のトランスフォーマーベースの視覚追跡モデルは優れた性能を示している。
しかしながら、以前の作業はリソース集約的で、gpuのトレーニング時間が長くなり、非効率なトレーニング方法と畳み込みベースのターゲットヘッドによって推論中に高いgflopsが発生している。
このリソース利用は、現実世界のアプリケーションには適さない。
本稿では,エンドツーエンドのビジュアルオブジェクト追跡フレームワークであるDETRackを提案する。
本フレームワークでは,変形可能な変換器デコーダを目標とする効率的なエンコーダデコーダ構造を用いて,従来の畳み込みヘッドよりも高い空間幅を実現し,GFLOPを低減させる。
トレーニングでは,新しい1対多ラベルの割り当てと補助的復調手法を導入し,モデルの収束を著しく加速する。
提案手法の有効性と有効性を確認する総合実験を行った。
例えば、DETRackはベースラインに必要なトレーニングエポックの20%しか使用せず、GOT-10kベンチマークに挑戦する72.9%のAOを達成し、すべてのトランスフォーマーベースのトラッカーよりも低いGFLOPで動作する。
関連論文リスト
- PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では,PYRA(Parallel Yielding Re-Activation)手法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance [92.38964762187477]
実験室レベルのリソースをトラッキングするために,より大きな視覚変換器(ViT)のパワーを明らかにする手法であるLoRATを提案する。
私たちの作業の本質は、レイテンシー推論を追加することなく、モデルのパラメータの小さなサブセットを微調整するテクニックであるLoRAを適用することです。
我々は,多層パーセプトロン(MLP)のみをベースとしたアンカーフリーヘッドを設計し,PETRを適応させる。
論文 参考訳(メタデータ) (2024-03-08T11:41:48Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - GIFT: Generative Interpretable Fine-Tuning Transformers [9.532589580200437]
本稿では, GIFT (Generative Interpretable Fine-tuning Transformer) を用いて, 微調整事前学習型トランスモデルを提案する。
我々のGIFTは深層パラメータ残差学習法であり、事前学習されたトランスフォーマーモデルを微調整する際の2つの問題に対処する。
実験では,提案したGIFTをVTABベンチマークときめ細かい視覚分類ベンチマークで検証した。
論文 参考訳(メタデータ) (2023-12-01T16:33:57Z) - SiRi: A Simple Selective Retraining Mechanism for Transformer-based
Visual Grounding [131.0977050185209]
Selective Retraining (SiRi)は3つの人気のあるベンチマークにおいて、従来のアプローチよりも大幅に優れている。
SiRiは、限られたトレーニングデータでも驚くほど優れている。
また,その妥当性を検証するために,トランスフォーマーベース視覚接地モデルや他の視覚言語タスクにも拡張する。
論文 参考訳(メタデータ) (2022-07-27T07:01:01Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - ProFormer: Learning Data-efficient Representations of Body Movement with
Prototype-based Feature Augmentation and Visual Transformers [31.908276711898548]
身体からのデータ効率の高い認識法は、画像のような配列として構造化された骨格配列をますます活用している。
我々は、このパラダイムをトランスフォーマーネットワークの観点から見て、初めて、骨格運動のデータ効率の高いエンコーダとして視覚トランスフォーマーを探索する。
私たちのパイプラインでは、画像のような表現としてキャストされたボディポーズシーケンスをパッチ埋め込みに変換し、深いメトリック学習に最適化されたビジュアルトランスフォーマーバックボーンに渡します。
論文 参考訳(メタデータ) (2022-02-23T11:11:54Z) - EF-Train: Enable Efficient On-device CNN Training on FPGA Through Data
Reshaping for Online Adaptation or Personalization [11.44696439060875]
EF-Trainは、チャネルレベルの並列性に基づく畳み込みカーネルを統一した、効率的なDNNトレーニングアクセラレータである。
リソース制限された低消費電力エッジレベルFPGAのエンドツーエンドトレーニングを実現することができる。
我々の設計ではスループットとエネルギー効率の点で46.99GFLOPSと6.09GFLOPS/Wを実現している。
論文 参考訳(メタデータ) (2022-02-18T18:27:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。