論文の概要: OneTracker: Unifying Visual Object Tracking with Foundation Models and Efficient Tuning
- arxiv url: http://arxiv.org/abs/2403.09634v1
- Date: Thu, 14 Mar 2024 17:59:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 18:57:03.160649
- Title: OneTracker: Unifying Visual Object Tracking with Foundation Models and Efficient Tuning
- Title(参考訳): OneTracker: ファンデーションモデルと効率的なチューニングによるビジュアルオブジェクト追跡の統合
- Authors: Lingyi Hong, Shilin Yan, Renrui Zhang, Wanyun Li, Xinyu Zhou, Pinxue Guo, Kaixun Jiang, Yiting Chen, Jinglun Li, Zhaoyu Chen, Wenqiang Zhang,
- Abstract要約: 我々は、OneTrackerと呼ばれる様々なトラッキングタスクを統合するための一般的なフレームワークを提案する。
OneTrackerは最初に、Foundation Trackerと呼ばれるRGBトラッカーで大規模な事前トレーニングを行う。
次に、他のモダリティ情報をプロンプトとみなし、Foundation Tracker上にPrompt Trackerを構築する。
- 参考スコア(独自算出の注目度): 33.521077115333696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual object tracking aims to localize the target object of each frame based on its initial appearance in the first frame. Depending on the input modility, tracking tasks can be divided into RGB tracking and RGB+X (e.g. RGB+N, and RGB+D) tracking. Despite the different input modalities, the core aspect of tracking is the temporal matching. Based on this common ground, we present a general framework to unify various tracking tasks, termed as OneTracker. OneTracker first performs a large-scale pre-training on a RGB tracker called Foundation Tracker. This pretraining phase equips the Foundation Tracker with a stable ability to estimate the location of the target object. Then we regard other modality information as prompt and build Prompt Tracker upon Foundation Tracker. Through freezing the Foundation Tracker and only adjusting some additional trainable parameters, Prompt Tracker inhibits the strong localization ability from Foundation Tracker and achieves parameter-efficient finetuning on downstream RGB+X tracking tasks. To evaluate the effectiveness of our general framework OneTracker, which is consisted of Foundation Tracker and Prompt Tracker, we conduct extensive experiments on 6 popular tracking tasks across 11 benchmarks and our OneTracker outperforms other models and achieves state-of-the-art performance.
- Abstract(参考訳): ビジュアルオブジェクト追跡は、第1フレームの最初の外観に基づいて、各フレームのターゲットオブジェクトをローカライズすることを目的としている。
入力のモダリティによって、トラッキングタスクはRGBのトラッキングとRGB+X(例えばRGB+NとRGB+D)のトラッキングに分けられる。
異なる入力モダリティにもかかわらず、トラッキングのコアとなる側面は時間的マッチングである。
この共通基盤に基づいて,OneTrackerと呼ばれる様々なトラッキングタスクを統合するための一般的なフレームワークを提案する。
OneTrackerは最初に、Foundation Trackerと呼ばれるRGBトラッカーで大規模な事前トレーニングを行う。
この事前訓練フェーズは、ファンデーショントラッカーに、対象物の位置を推定する安定した能力を与える。
次に、他のモダリティ情報をプロンプトとみなし、Foundation Tracker上にPrompt Trackerを構築する。
Foundation Trackerを凍結し、いくつかのトレーニング可能なパラメータのみを調整することで、Prompt TrackerはFoundation Trackerからの強力なローカライゼーション能力を阻害し、下流のRGB+Xトラッキングタスクでパラメータ効率の良い微調整を実現する。
ファウンデーショントラッカーとプロンプトトラッカーで構成される一般的なフレームワークであるOneTrackerの有効性を評価するため、11のベンチマークで6つの一般的なトラッキングタスクについて広範な実験を行い、OneTrackerは他のモデルよりも優れ、最先端のパフォーマンスを達成する。
関連論文リスト
- Tracking with Human-Intent Reasoning [64.69229729784008]
この作業では、新しいトラッキングタスクであるインストラクショントラッキングを提案している。
ビデオフレーム内で自動的にトラッキングを実行するようにトラッカーに要求する暗黙の追跡命令を提供する。
TrackGPTは複雑な推論ベースの追跡を行うことができる。
論文 参考訳(メタデータ) (2023-12-29T03:22:18Z) - RTrack: Accelerating Convergence for Visual Object Tracking via
Pseudo-Boxes Exploration [3.29854706649876]
単一のオブジェクト追跡(SOT)は、ターゲットオブジェクトをバウンディングボックスとして表現することに大きく依存している。
本稿では,新しいオブジェクト表現ベースライントラッカーRTrackを提案する。
RTrackは自動的に点を配置して空間範囲を定義し、局所領域をハイライトする。
論文 参考訳(メタデータ) (2023-09-23T04:41:59Z) - OmniTracker: Unifying Object Tracking by Tracking-with-Detection [119.51012668709502]
OmniTrackerは、完全に共有されたネットワークアーキテクチャ、モデルウェイト、推論パイプラインですべてのトラッキングタスクを解決するために提供されている。
LaSOT、TrackingNet、DAVIS16-17、MOT17、MOTS20、YTVIS19を含む7つの追跡データセットの実験は、OmniTrackerがタスク固有の追跡モデルと統合された追跡モデルの両方よりも、オンパーまたはそれ以上の結果を達成することを示した。
論文 参考訳(メタデータ) (2023-03-21T17:59:57Z) - Revisiting Color-Event based Tracking: A Unified Network, Dataset, and
Metric [53.88188265943762]
上記の機能を同時に実現したCEUTrack(Color-Event Unified Tracking)のためのシングルステージバックボーンネットワークを提案する。
提案するCEUTrackはシンプルで,効率的で,75FPS以上を達成し,新たなSOTA性能を実現している。
論文 参考訳(メタデータ) (2022-11-20T16:01:31Z) - Unified Transformer Tracker for Object Tracking [58.65901124158068]
異なるシナリオにおけるトラッキング問題に1つのパラダイムで対処するために,UTT(Unified Transformer Tracker)を提案する。
SOT(Single Object Tracking)とMOT(Multiple Object Tracking)の両方を対象とするトラックトランスフォーマーを開発した。
論文 参考訳(メタデータ) (2022-03-29T01:38:49Z) - Learning Dynamic Compact Memory Embedding for Deformable Visual Object
Tracking [82.34356879078955]
本稿では,セグメント化に基づく変形可能な視覚追跡手法の識別を強化するために,コンパクトなメモリ埋め込みを提案する。
DAVIS 2017ベンチマークでは,D3SやSiamMaskなどのセグメンテーションベースのトラッカーよりも優れている。
論文 参考訳(メタデータ) (2021-11-23T03:07:12Z) - e-TLD: Event-based Framework for Dynamic Object Tracking [23.026432675020683]
本稿では,一般的な追跡条件下での移動イベントカメラを用いた長期オブジェクト追跡フレームワークを提案する。
このフレームワークは、オンライン学習を伴うオブジェクトの識別表現を使用し、ビューのフィールドに戻るとオブジェクトを検出し、追跡する。
論文 参考訳(メタデータ) (2020-09-02T07:08:56Z) - Robust Visual Object Tracking with Two-Stream Residual Convolutional
Networks [62.836429958476735]
視覚追跡のための2ストリーム残差畳み込みネットワーク(TS-RCN)を提案する。
私たちのTS-RCNは、既存のディープラーニングベースのビジュアルトラッカーと統合することができます。
トラッキング性能をさらに向上するため、我々はResNeXtを特徴抽出バックボーンとして採用する。
論文 参考訳(メタデータ) (2020-05-13T19:05:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。