論文の概要: SUTrack: Towards Simple and Unified Single Object Tracking
- arxiv url: http://arxiv.org/abs/2412.19138v1
- Date: Thu, 26 Dec 2024 09:41:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:28:18.181914
- Title: SUTrack: Towards Simple and Unified Single Object Tracking
- Title(参考訳): SUTrack: シンプルで統一された単一オブジェクト追跡を目指す
- Authors: Xin Chen, Ben Kang, Wanting Geng, Jiawen Zhu, Yi Liu, Dong Wang, Huchuan Lu,
- Abstract要約: 我々はSUTrackと呼ばれる単純な統一された単一オブジェクト追跡(SOT)フレームワークを提案する。
5つのSOTタスクを単一のセッションでトレーニングされた統一モデルに統合する。
実験によると、SUTrackは5つのSOTタスクにまたがる11のデータセットで、以前のタスク固有のタスクよりも優れていた。
- 参考スコア(独自算出の注目度): 48.788978093502294
- License:
- Abstract: In this paper, we propose a simple yet unified single object tracking (SOT) framework, dubbed SUTrack. It consolidates five SOT tasks (RGB-based, RGB-Depth, RGB-Thermal, RGB-Event, RGB-Language Tracking) into a unified model trained in a single session. Due to the distinct nature of the data, current methods typically design individual architectures and train separate models for each task. This fragmentation results in redundant training processes, repetitive technological innovations, and limited cross-modal knowledge sharing. In contrast, SUTrack demonstrates that a single model with a unified input representation can effectively handle various common SOT tasks, eliminating the need for task-specific designs and separate training sessions. Additionally, we introduce a task-recognition auxiliary training strategy and a soft token type embedding to further enhance SUTrack's performance with minimal overhead. Experiments show that SUTrack outperforms previous task-specific counterparts across 11 datasets spanning five SOT tasks. Moreover, we provide a range of models catering edge devices as well as high-performance GPUs, striking a good trade-off between speed and accuracy. We hope SUTrack could serve as a strong foundation for further compelling research into unified tracking models. Code and models are available at github.com/chenxin-dlut/SUTrack.
- Abstract(参考訳): 本稿では,SUTrackと呼ばれるシンプルな統一された単一オブジェクト追跡(SOT)フレームワークを提案する。
5つのSOTタスク(RGBベース、RGB-Depth、RGB-Thermal、RGB-Event、RGB-Language Tracking)を単一のセッションでトレーニングされた統一モデルに統合する。
データの性質が異なるため、現在のメソッドは通常、個々のアーキテクチャを設計し、タスクごとに別々のモデルをトレーニングします。
この断片化は、冗長なトレーニングプロセス、反復的な技術革新、限られたモダル間の知識共有をもたらす。
対照的に、SUTrackは、統一された入力表現を持つ単一のモデルが、様々な共通SOTタスクを効果的に処理できることを示し、タスク固有の設計や個別のトレーニングセッションの必要性を排除している。
さらに,タスク認識補助訓練戦略とソフトトークン型埋め込みを導入し,SUTrackの性能を最小限のオーバーヘッドで向上させる。
実験によると、SUTrackは5つのSOTタスクにまたがる11のデータセットで、以前のタスク固有のタスクよりも優れていた。
さらに、エッジデバイスに対応するさまざまなモデルと高性能GPUを提供し、スピードと精度のトレードオフをよく示しています。
私たちは、SUTrackが統合トラッキングモデルに関するさらなる研究の強力な基盤になることを期待しています。
コードとモデルはgithub.com/chenxin-dlut/SUTrackで入手できる。
関連論文リスト
- Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - SDSTrack: Self-Distillation Symmetric Adapter Learning for Multi-Modal Visual Object Tracking [19.50096632818305]
VOT(Multimodal Visual Object Tracking)は、その堅牢性により、最近大きな注目を集めている。
近年の研究では、事前訓練されたRGBベースのトラッカーをマルチモーダルデータに転送するために、プロンプトチューニングを利用している。
我々はSDSTrackと呼ばれる新しい対称マルチモーダルトラッキングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-24T04:15:50Z) - OneTracker: Unifying Visual Object Tracking with Foundation Models and Efficient Tuning [33.521077115333696]
我々は、OneTrackerと呼ばれる様々なトラッキングタスクを統合するための一般的なフレームワークを提案する。
OneTrackerは最初に、Foundation Trackerと呼ばれるRGBトラッカーで大規模な事前トレーニングを行う。
次に、他のモダリティ情報をプロンプトとみなし、Foundation Tracker上にPrompt Trackerを構築する。
論文 参考訳(メタデータ) (2024-03-14T17:59:13Z) - Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。
任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。
我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文 参考訳(メタデータ) (2023-11-27T14:17:41Z) - Visual Prompt Multi-Modal Tracking [71.53972967568251]
Visual Prompt Multi-modal Tracking (ViPT)は、凍結したトレーニング済み基礎モデルを様々な下流マルチモーダル追跡タスクに適応させるモーダル関連プロンプトを学習する。
ViPTは、RGB+Depth、RGB+Thermal、RGB+Eventトラッキングなど、複数のダウンストリームトラッキングタスクにおいて、完全な微調整パラダイムを上回っている。
論文 参考訳(メタデータ) (2023-03-20T01:51:07Z) - Unified Transformer Tracker for Object Tracking [58.65901124158068]
異なるシナリオにおけるトラッキング問題に1つのパラダイムで対処するために,UTT(Unified Transformer Tracker)を提案する。
SOT(Single Object Tracking)とMOT(Multiple Object Tracking)の両方を対象とするトラックトランスフォーマーを開発した。
論文 参考訳(メタデータ) (2022-03-29T01:38:49Z) - Do Different Tracking Tasks Require Different Appearance Models? [118.02175542476367]
我々は、同じフレームワーク内の5つの異なるタスクに対処する統合されたトラッキングソリューションUniTrackを提案する。
UniTrackは単一かつタスクに依存しない外観モデルで構成されており、教師付きまたは自己管理的な方法で学習することができる。
このフレームワークでは,ほとんどのトラッキングタスクがいかに解決可能かを示し,同じ外観モデルを用いて検討された5つのタスクすべてに対して,特殊化メソッドと競合する性能が得られることを示す。
論文 参考訳(メタデータ) (2021-07-05T17:40:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。