論文の概要: Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance
- arxiv url: http://arxiv.org/abs/2403.05231v1
- Date: Fri, 8 Mar 2024 11:41:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 20:09:55.311700
- Title: Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance
- Title(参考訳): TrackingがLoRAを発表 - 高速トレーニング,大規模モデル,パフォーマンス向上
- Authors: Liting Lin, Heng Fan, Zhipeng Zhang, Yaowei Wang, Yong Xu, Haibin Ling
- Abstract要約: 実験室レベルのリソースをトラッキングするために,より大きな視覚変換器(ViT)のパワーを明らかにする手法であるLoRATを提案する。
私たちの作業の本質は、レイテンシー推論を追加することなく、モデルのパラメータの小さなサブセットを微調整するテクニックであるLoRAを適用することです。
我々は,多層パーセプトロン(MLP)のみをベースとしたアンカーフリーヘッドを設計し,PETRを適応させる。
- 参考スコア(独自算出の注目度): 92.38964762187477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by the Parameter-Efficient Fine-Tuning (PEFT) in large language
models, we propose LoRAT, a method that unveils the power of larger Vision
Transformers (ViT) for tracking within laboratory-level resources. The essence
of our work lies in adapting LoRA, a technique that fine-tunes a small subset
of model parameters without adding inference latency, to the domain of visual
tracking. However, unique challenges and potential domain gaps make this
transfer not as easy as the first intuition. Firstly, a transformer-based
tracker constructs unshared position embedding for template and search image.
This poses a challenge for the transfer of LoRA, usually requiring consistency
in the design when applied to the pre-trained backbone, to downstream tasks.
Secondly, the inductive bias inherent in convolutional heads diminishes the
effectiveness of parameter-efficient fine-tuning in tracking models. To
overcome these limitations, we first decouple the position embeddings in
transformer-based trackers into shared spatial ones and independent type ones.
The shared embeddings, which describe the absolute coordinates of
multi-resolution images (namely, the template and search images), are inherited
from the pre-trained backbones. In contrast, the independent embeddings
indicate the sources of each token and are learned from scratch. Furthermore,
we design an anchor-free head solely based on a multilayer perceptron (MLP) to
adapt PETR, enabling better performance with less computational overhead. With
our design, 1) it becomes practical to train trackers with the ViT-g backbone
on GPUs with only memory of 25.8GB (batch size of 16); 2) we reduce the
training time of the L-224 variant from 35.0 to 10.8 GPU hours; 3) we improve
the LaSOT SUC score from 0.703 to 0.743 with the L-224 variant; 4) we fast the
inference speed of the L-224 variant from 52 to 119 FPS. Code and models will
be released.
- Abstract(参考訳): 大規模言語モデルにおけるパラメータ・エフェクト・ファインタニング(PEFT)の動機付けにより,実験室レベルの資源をトラッキングするための大きなビジョン変換器(ViT)のパワーを明らかにする手法であるLoRATを提案する。
私たちの作業の本質は、推論遅延を追加することなく、モデルパラメータの小さなサブセットを視覚的なトラッキング領域に微調整するテクニックであるLoRAを適用することです。
しかし、ユニークな課題と潜在的なドメインギャップにより、この変換は最初の直観ほど簡単ではない。
まず、変換器ベースのトラッカーがテンプレートと検索画像の非共有位置埋め込みを構成する。
これはLoRAをダウンストリームタスクに、トレーニング済みのバックボーンに適用する場合、設計上の一貫性を必要とするという問題を引き起こす。
第二に、畳み込みヘッドに固有の誘導バイアスは、追跡モデルにおけるパラメータ効率の良い微調整の有効性を低下させる。
これらの制約を克服するために、まずトランスフォーマーベースのトラッカーにおける位置埋め込みを共有空間と独立型に分離する。
多解像度画像(すなわちテンプレートと検索画像)の絶対座標を記述する共有埋め込みは、事前学習されたバックボーンから継承される。
対照的に、独立した埋め込みは各トークンのソースを示し、スクラッチから学習される。
さらに,多層パーセプトロン(mlp)のみに基づくアンカーフリーヘッドの設計を行い,petrを適応させ,計算オーバーヘッドを低減した高性能化を実現する。
私たちのデザインで
1) メモリが25.8GB(バッチサイズ16)のGPU上でViT-gバックボーンでトラッカーを訓練することは現実的になる。
2) L-224 の訓練時間を 35.0 から 10.8 GPU に短縮する。
3) L-224 変種を用いて LaSOT SUC スコアを 0.703 から 0.743 に改善する。
4) l-224の推論速度を52fpsから119fpsに高速化した。
コードとモデルはリリースされる。
関連論文リスト
- Separable Self and Mixed Attention Transformers for Efficient Object
Tracking [3.9160947065896803]
本稿では,軽量トラッキングのための自己・混在型アテンショントランスフォーマーアーキテクチャを提案する。
これらの貢献により、提案された軽量トラッカーは、トランスフォーマーベースのバックボーンとヘッドモジュールを、初めて同時にデプロイする。
シミュレーションの結果、SMATはGOT10k、TrackingNet、LaSOT、NfS30、UAV123、AVisTデータセット上の関連する軽量トラッカーのパフォーマンスを上回っている。
論文 参考訳(メタデータ) (2023-09-07T19:23:02Z) - Efficient Training for Visual Tracking with Deformable Transformer [0.0]
本稿では、エンドツーエンドのビジュアルオブジェクト追跡フレームワークであるDETRackを紹介する。
本フレームワークは、変形可能なトランスデコーダがターゲットヘッドとして機能する効率的なエンコーダ・デコーダ構造を用いる。
トレーニングには,新しい1対多ラベルの割り当てと補助的認知技術を導入する。
論文 参考訳(メタデータ) (2023-09-06T03:07:43Z) - Exploring Lightweight Hierarchical Vision Transformers for Efficient
Visual Tracking [69.89887818921825]
HiTは、さまざまなデバイス上で高速に動作可能な、効率的なトラッキングモデルの新たなファミリーだ。
HiTはLaSOTベンチマークで64.6%のAUCを達成した。
論文 参考訳(メタデータ) (2023-08-14T02:51:34Z) - Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。
カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。
本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文 参考訳(メタデータ) (2022-11-03T13:19:23Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - LiteTransformerSearch: Training-free On-device Search for Efficient
Autoregressive Language Models [34.673688610935876]
モデルトレーニングを必要とせずに、レイテンシとパープレクシリティが最前線に現れることを示す。
我々は,多種多様なデバイス上での軽量トランスフォーマーサーチ (LTS) の評価を行った。
最大2倍のレイテンシでTransformer-XLのパープレキシティを実現することができることを示す。
論文 参考訳(メタデータ) (2022-03-04T02:10:43Z) - Efficient Visual Tracking with Exemplar Transformers [98.62550635320514]
本稿では,リアルタイム物体追跡のための効率的な変換器であるExemplar Transformerを紹介する。
Exemplar Transformerレイヤを組み込んだビジュアルトラッカーであるE.T.Trackは、CPU上で47fpsで動作する。
これは、他のトランスモデルよりも最大8倍高速である。
論文 参考訳(メタデータ) (2021-12-17T18:57:54Z) - Learning Tracking Representations via Dual-Branch Fully Transformer
Networks [82.21771581817937]
追従のためのトランスフォーマーのみをベースとした,シームズ型デュアルブランチネットワークを提案する。
注目ウィンドウ内の他のパッチとのマッチング結果に基づいて,各パッチの特徴ベクトルを抽出する。
この手法は、最高の性能の方法として、より良い結果または同等の結果を得る。
論文 参考訳(メタデータ) (2021-12-05T13:44:33Z) - Siamese Transformer Pyramid Networks for Real-Time UAV Tracking [3.0969191504482243]
本稿では,CNNとTransformerアーキテクチャの両方の利点を継承するSiamTPN(Siamese Transformer Pyramid Network)を紹介する。
航空機と一般的な追跡ベンチマークの両方の実験は、高速で動作しながら競争的な結果を得る。
我々の最速の可変トラッカーは、1つのCPUコアで30Hz以上で動作し、LaSOTデータセットで58.1%のAUCスコアを得る。
論文 参考訳(メタデータ) (2021-10-17T13:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。