論文の概要: Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance
- arxiv url: http://arxiv.org/abs/2403.05231v2
- Date: Fri, 26 Jul 2024 03:15:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 18:11:46.453462
- Title: Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance
- Title(参考訳): TrackingがLoRAを発表 - より高速なトレーニング,大規模モデル,パフォーマンス向上
- Authors: Liting Lin, Heng Fan, Zhipeng Zhang, Yaowei Wang, Yong Xu, Haibin Ling,
- Abstract要約: 実験室レベルの資源をトラッキングするための大規模ViTモデルのパワーを明らかにする手法であるLoRATを提案する。
私たちの作業の本質は、推論レイテンシを追加することなく、モデルパラメータの小さなサブセットを微調整するテクニックであるLoRAを適用することです。
我々はPETRの適応のみに基づくアンカーフリーヘッドを設計し、計算オーバーヘッドを少なくして性能を向上する。
- 参考スコア(独自算出の注目度): 87.19164603145056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by the Parameter-Efficient Fine-Tuning (PEFT) in large language models, we propose LoRAT, a method that unveils the power of large ViT model for tracking within laboratory-level resources. The essence of our work lies in adapting LoRA, a technique that fine-tunes a small subset of model parameters without adding inference latency, to the domain of visual tracking. However, unique challenges and potential domain gaps make this transfer not as easy as the first intuition. Firstly, a transformer-based tracker constructs unshared position embedding for template and search image. This poses a challenge for the transfer of LoRA, usually requiring consistency in the design when applied to the pre-trained backbone, to downstream tasks. Secondly, the inductive bias inherent in convolutional heads diminishes the effectiveness of parameter-efficient fine-tuning in tracking models. To overcome these limitations, we first decouple the position embeddings in transformer-based trackers into shared spatial ones and independent type ones. The shared embeddings, which describe the absolute coordinates of multi-resolution images (namely, the template and search images), are inherited from the pre-trained backbones. In contrast, the independent embeddings indicate the sources of each token and are learned from scratch. Furthermore, we design an anchor-free head solely based on MLP to adapt PETR, enabling better performance with less computational overhead. With our design, 1) it becomes practical to train trackers with the ViT-g backbone on GPUs with only memory of 25.8GB (batch size of 16); 2) we reduce the training time of the L-224 variant from 35.0 to 10.8 GPU hours; 3) we improve the LaSOT SUC score from 0.703 to 0.742 with the L-224 variant; 4) we fast the inference speed of the L-224 variant from 52 to 119 FPS. Code and models are available at https://github.com/LitingLin/LoRAT.
- Abstract(参考訳): 大規模言語モデルにおけるパラメータ・エフェクト・ファイン・チューニング(PEFT)の動機付けにより,実験室レベルの資源をトラッキングするための大規模ViTモデルのパワーを明らかにする手法であるLoRATを提案する。
私たちの作業の本質は、推論遅延を追加することなく、モデルパラメータの小さなサブセットを視覚的なトラッキング領域に微調整するテクニックであるLoRAを適用することです。
しかし、ユニークな課題と潜在的なドメインギャップにより、この変換は最初の直観ほど簡単ではない。
まず、変換器ベースのトラッカーがテンプレートと検索画像の非共有位置埋め込みを構成する。
これはLoRAをダウンストリームタスクに、トレーニング済みのバックボーンに適用する場合、設計上の一貫性を必要とする、という問題を引き起こす。
第二に、畳み込みヘッドに固有の誘導バイアスは、追跡モデルにおけるパラメータ効率の良い微調整の有効性を低下させる。
これらの制約を克服するために、まずトランスフォーマーベースのトラッカーに位置埋め込みを分割し、共有空間と独立型に分割する。
多解像度画像(テンプレートと検索画像)の絶対座標を記述する共有埋め込みは、予め訓練されたバックボーンから継承される。
対照的に、独立した埋め込みは各トークンのソースを示し、スクラッチから学習される。
さらに,MPPのみをベースとしたアンカーフリーヘッドの設計を行い,PETRを適応させる。
私たちのデザインで。
1) メモリが25.8GB(バッチサイズ16)のGPU上でViT-gバックボーンでトラッカーを訓練することは現実的になる。
2) L-224 の訓練時間を 35.0 から 10.8 GPU に短縮する。
3) L-224 変種を用いて LaSOT SUC スコアを 0.703 から 0.742 に改善する。
4) L-224変種を52FPSから119FPSに高速化する。
コードとモデルはhttps://github.com/LitingLin/LoRAT.comで公開されている。
関連論文リスト
- Temporal Correlation Meets Embedding: Towards a 2nd Generation of JDE-based Real-Time Multi-Object Tracking [52.04679257903805]
共同検出・埋め込み(JDE)トラッカーは多目的追跡(MOT)タスクにおいて優れた性能を示した。
TCBTrackという名前のトラッカーは、複数の公開ベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-07-19T07:48:45Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - Separable Self and Mixed Attention Transformers for Efficient Object
Tracking [3.9160947065896803]
本稿では,軽量トラッキングのための自己・混在型アテンショントランスフォーマーアーキテクチャを提案する。
これらの貢献により、提案された軽量トラッカーは、トランスフォーマーベースのバックボーンとヘッドモジュールを、初めて同時にデプロイする。
シミュレーションの結果、SMATはGOT10k、TrackingNet、LaSOT、NfS30、UAV123、AVisTデータセット上の関連する軽量トラッカーのパフォーマンスを上回っている。
論文 参考訳(メタデータ) (2023-09-07T19:23:02Z) - Improving Siamese Based Trackers with Light or No Training through Multiple Templates and Temporal Network [0.0]
我々は,シームズをベースとしたトラッカーに2つのアイデアを持つフレームワークを提案する。
i) ネットワークの再トレーニングの必要性を取り除く方法で、テンプレートの数を拡張すること。
(II) 地域情報とグローバル情報の両方に焦点をあてた新しいアーキテクチャを持つ軽量時間ネットワーク。
論文 参考訳(メタデータ) (2022-11-24T22:07:33Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Efficient Visual Tracking with Exemplar Transformers [98.62550635320514]
本稿では,リアルタイム物体追跡のための効率的な変換器であるExemplar Transformerを紹介する。
Exemplar Transformerレイヤを組み込んだビジュアルトラッカーであるE.T.Trackは、CPU上で47fpsで動作する。
これは、他のトランスモデルよりも最大8倍高速である。
論文 参考訳(メタデータ) (2021-12-17T18:57:54Z) - FEAR: Fast, Efficient, Accurate and Robust Visual Tracker [2.544539499281093]
私たちは、新しい、高速で、効率的で、正確で、堅牢なシームズ・ビジュアル・トラッカーであるFEARを紹介します。
FEAR-XSトラッカーは、LightTrack [62]より2.4倍小さく、4.3倍高速で精度が高い。
論文 参考訳(メタデータ) (2021-12-15T08:28:55Z) - Learning Tracking Representations via Dual-Branch Fully Transformer
Networks [82.21771581817937]
追従のためのトランスフォーマーのみをベースとした,シームズ型デュアルブランチネットワークを提案する。
注目ウィンドウ内の他のパッチとのマッチング結果に基づいて,各パッチの特徴ベクトルを抽出する。
この手法は、最高の性能の方法として、より良い結果または同等の結果を得る。
論文 参考訳(メタデータ) (2021-12-05T13:44:33Z) - Fully Convolutional Online Tracking [47.78513247048846]
我々は、分類と回帰の両方のためにFCOTと呼ばれる完全な畳み込みオンライン追跡フレームワークを提示する。
我々の重要な貢献は、ターゲットフィルタの重みをオンラインサンプルで初期化するオンライン回帰モデル生成器(RMG)の導入である。
RMGのユニークな設計のおかげで、我々のFCOTは時間次元に沿った目標変動の処理に有効であるばかりでなく、より正確な結果を生み出すことができる。
論文 参考訳(メタデータ) (2020-04-15T14:21:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。