Fugu-MT 論文翻訳(概要): Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance

論文の概要: Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance

arxiv url: http://arxiv.org/abs/2403.05231v1
Date: Fri, 8 Mar 2024 11:41:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-11 20:09:55.311700
Title: Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance
Title（参考訳）: TrackingがLoRAを発表 - 高速トレーニング,大規模モデル,パフォーマンス向上
Authors: Liting Lin, Heng Fan, Zhipeng Zhang, Yaowei Wang, Yong Xu, Haibin Ling
Abstract要約: 実験室レベルのリソースをトラッキングするために,より大きな視覚変換器(ViT)のパワーを明らかにする手法であるLoRATを提案する。私たちの作業の本質は、レイテンシー推論を追加することなく、モデルのパラメータの小さなサブセットを微調整するテクニックであるLoRAを適用することです。我々は,多層パーセプトロン(MLP)のみをベースとしたアンカーフリーヘッドを設計し,PETRを適応させる。
参考スコア（独自算出の注目度）: 92.38964762187477
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Motivated by the Parameter-Efficient Fine-Tuning (PEFT) in large language models, we propose LoRAT, a method that unveils the power of larger Vision Transformers (ViT) for tracking within laboratory-level resources. The essence of our work lies in adapting LoRA, a technique that fine-tunes a small subset of model parameters without adding inference latency, to the domain of visual tracking. However, unique challenges and potential domain gaps make this transfer not as easy as the first intuition. Firstly, a transformer-based tracker constructs unshared position embedding for template and search image. This poses a challenge for the transfer of LoRA, usually requiring consistency in the design when applied to the pre-trained backbone, to downstream tasks. Secondly, the inductive bias inherent in convolutional heads diminishes the effectiveness of parameter-efficient fine-tuning in tracking models. To overcome these limitations, we first decouple the position embeddings in transformer-based trackers into shared spatial ones and independent type ones. The shared embeddings, which describe the absolute coordinates of multi-resolution images (namely, the template and search images), are inherited from the pre-trained backbones. In contrast, the independent embeddings indicate the sources of each token and are learned from scratch. Furthermore, we design an anchor-free head solely based on a multilayer perceptron (MLP) to adapt PETR, enabling better performance with less computational overhead. With our design, 1) it becomes practical to train trackers with the ViT-g backbone on GPUs with only memory of 25.8GB (batch size of 16); 2) we reduce the training time of the L-224 variant from 35.0 to 10.8 GPU hours; 3) we improve the LaSOT SUC score from 0.703 to 0.743 with the L-224 variant; 4) we fast the inference speed of the L-224 variant from 52 to 119 FPS. Code and models will be released.
Abstract（参考訳）: 大規模言語モデルにおけるパラメータ・エフェクト・ファインタニング(PEFT)の動機付けにより,実験室レベルの資源をトラッキングするための大きなビジョン変換器(ViT)のパワーを明らかにする手法であるLoRATを提案する。私たちの作業の本質は、推論遅延を追加することなく、モデルパラメータの小さなサブセットを視覚的なトラッキング領域に微調整するテクニックであるLoRAを適用することです。しかし、ユニークな課題と潜在的なドメインギャップにより、この変換は最初の直観ほど簡単ではない。まず、変換器ベースのトラッカーがテンプレートと検索画像の非共有位置埋め込みを構成する。これはLoRAをダウンストリームタスクに、トレーニング済みのバックボーンに適用する場合、設計上の一貫性を必要とするという問題を引き起こす。第二に、畳み込みヘッドに固有の誘導バイアスは、追跡モデルにおけるパラメータ効率の良い微調整の有効性を低下させる。これらの制約を克服するために、まずトランスフォーマーベースのトラッカーにおける位置埋め込みを共有空間と独立型に分離する。多解像度画像(すなわちテンプレートと検索画像)の絶対座標を記述する共有埋め込みは、事前学習されたバックボーンから継承される。対照的に、独立した埋め込みは各トークンのソースを示し、スクラッチから学習される。さらに,多層パーセプトロン(mlp)のみに基づくアンカーフリーヘッドの設計を行い,petrを適応させ,計算オーバーヘッドを低減した高性能化を実現する。私たちのデザインで 1) メモリが25.8GB(バッチサイズ16)のGPU上でViT-gバックボーンでトラッカーを訓練することは現実的になる。 2) L-224 の訓練時間を 35.0 から 10.8 GPU に短縮する。 3) L-224 変種を用いて LaSOT SUC スコアを 0.703 から 0.743 に改善する。 4) l-224の推論速度を52fpsから119fpsに高速化した。コードとモデルはリリースされる。

関連論文リスト

Solo Connection: A Parameter Efficient Fine-Tuning Technique for Transformers [0.0]
Solo Connectionは、個々の重み行列を変更するのではなく、デコーダブロックレベルで表現を適応する新しい方法である。 Solo Connectionは、E2Eの自然言語生成ベンチマークでLoRAを上回っているだけでなく、トレーニング可能なパラメータの数を59%削減している。本稿では、異なるデコーダブロックの出力をリンクする長いスキップ接続に着目し、事前学習された知識を活用しながら、新しいタスクに適応する能力を高める可能性がある。
論文参考訳（メタデータ） (2025-07-18T20:11:50Z)
Lightweight RGB-T Tracking with Mobile Vision Transformers [2.209921757303168]
モバイルビジョン変換器(MobileViT)に基づく新しい軽量RGB-Tトラッキングアルゴリズムを提案する。最先端のマルチモーダルトラッカーと比較して,本モデルではパラメータ数を大幅に削減しつつ,同等の精度を実現している。本稿では,RGB-TトラッキングとマルチモーダルトラッキングにMobile Vision Transformerを用いたトラッカーを提案する。
論文参考訳（メタデータ） (2025-06-23T21:46:22Z)
Online Dense Point Tracking with Streaming Memory [54.22820729477756]
デンスポイントトラッキングは、ビデオのかなりの部分を通して、初期フレーム内のすべてのポイントの連続的な追跡を必要とする、困難なタスクである。最近の点追跡アルゴリズムは、通常、最初のフレームから現在のフレームへの間接的な情報伝達のためにスライドウィンドウに依存する。我々は、高密度のtextbfPOint textbfTracking とオンラインビデオ処理のための textbfStreaming メモリを備えた軽量で高速なモデルを提案する。
論文参考訳（メタデータ） (2025-03-09T06:16:49Z)
Two-stream Beats One-stream: Asymmetric Siamese Network for Efficient Visual Tracking [54.124445709376154]
効率的な追跡を行うために,textbfAsymTrack という新しい非対称なシームズトラッカーを提案する。このアーキテクチャに基づいて、検索機能に重要な手がかりを注入する効率的なテンプレート変調機構を考案する。実験によると、AsymTrackは異なるプラットフォーム間で、より優れたスピード精度のトレードオフを提供する。
論文参考訳（メタデータ） (2025-03-01T14:44:54Z)
Temporal Correlation Meets Embedding: Towards a 2nd Generation of JDE-based Real-Time Multi-Object Tracking [52.04679257903805]
共同検出・埋め込み(JDE)トラッカーは多目的追跡(MOT)タスクにおいて優れた性能を示した。 TCBTrackという名前のトラッカーは、複数の公開ベンチマークで最先端のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2024-07-19T07:48:45Z)
Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。 DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文参考訳（メタデータ） (2024-03-26T12:31:58Z)
Separable Self and Mixed Attention Transformers for Efficient Object Tracking [3.9160947065896803]
本稿では,軽量トラッキングのための自己・混在型アテンショントランスフォーマーアーキテクチャを提案する。これらの貢献により、提案された軽量トラッカーは、トランスフォーマーベースのバックボーンとヘッドモジュールを、初めて同時にデプロイする。シミュレーションの結果、SMATはGOT10k、TrackingNet、LaSOT、NfS30、UAV123、AVisTデータセット上の関連する軽量トラッカーのパフォーマンスを上回っている。
論文参考訳（メタデータ） (2023-09-07T19:23:02Z)
Improving Siamese Based Trackers with Light or No Training through Multiple Templates and Temporal Network [0.0]
我々は,シームズをベースとしたトラッカーに2つのアイデアを持つフレームワークを提案する。 i) ネットワークの再トレーニングの必要性を取り除く方法で、テンプレートの数を拡張すること。 (II) 地域情報とグローバル情報の両方に焦点をあてた新しいアーキテクチャを持つ軽量時間ネットワーク。
論文参考訳（メタデータ） (2022-11-24T22:07:33Z)
Joint Spatial-Temporal and Appearance Modeling with Transformer for Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文参考訳（メタデータ） (2022-05-31T01:19:18Z)
Efficient Visual Tracking with Exemplar Transformers [98.62550635320514]
本稿では,リアルタイム物体追跡のための効率的な変換器であるExemplar Transformerを紹介する。 Exemplar Transformerレイヤを組み込んだビジュアルトラッカーであるE.T.Trackは、CPU上で47fpsで動作する。これは、他のトランスモデルよりも最大8倍高速である。
論文参考訳（メタデータ） (2021-12-17T18:57:54Z)
FEAR: Fast, Efficient, Accurate and Robust Visual Tracker [2.544539499281093]
私たちは、新しい、高速で、効率的で、正確で、堅牢なシームズ・ビジュアル・トラッカーであるFEARを紹介します。 FEAR-XSトラッカーは、LightTrack [62]より2.4倍小さく、4.3倍高速で精度が高い。
論文参考訳（メタデータ） (2021-12-15T08:28:55Z)
Learning Tracking Representations via Dual-Branch Fully Transformer Networks [82.21771581817937]
追従のためのトランスフォーマーのみをベースとした,シームズ型デュアルブランチネットワークを提案する。注目ウィンドウ内の他のパッチとのマッチング結果に基づいて,各パッチの特徴ベクトルを抽出する。この手法は、最高の性能の方法として、より良い結果または同等の結果を得る。
論文参考訳（メタデータ） (2021-12-05T13:44:33Z)
Fully Convolutional Online Tracking [47.78513247048846]
我々は、分類と回帰の両方のためにFCOTと呼ばれる完全な畳み込みオンライン追跡フレームワークを提示する。我々の重要な貢献は、ターゲットフィルタの重みをオンラインサンプルで初期化するオンライン回帰モデル生成器(RMG)の導入である。 RMGのユニークな設計のおかげで、我々のFCOTは時間次元に沿った目標変動の処理に有効であるばかりでなく、より正確な結果を生み出すことができる。
論文参考訳（メタデータ） (2020-04-15T14:21:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。