論文の概要: Unified Sequence-to-Sequence Learning for Single- and Multi-Modal Visual Object Tracking
- arxiv url: http://arxiv.org/abs/2304.14394v3
- Date: Wed, 27 Mar 2024 03:23:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 23:22:06.715782
- Title: Unified Sequence-to-Sequence Learning for Single- and Multi-Modal Visual Object Tracking
- Title(参考訳): シングルモーダル・マルチモーダル・ビジュアル・オブジェクト・トラッキングのための統一シーケンス・ツー・シーケンス・ラーニング
- Authors: Xin Chen, Ben Kang, Jiawen Zhu, Dong Wang, Houwen Peng, Huchuan Lu,
- Abstract要約: SeqTrackは、ビジュアルトラッキングをシーケンス生成タスクとしてキャストし、オブジェクト境界ボックスを自動回帰的に予測する。
SeqTrackv2は補助モダリティのための統一インターフェースとタスクを指定するためのタスクプロンプトトークンのセットを統合している。
このシーケンス学習パラダイムは、トラッキングフレームワークを単純化するだけでなく、14の挑戦的なベンチマークで優れたパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 64.28025685503376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a new sequence-to-sequence learning framework for RGB-based and multi-modal object tracking. First, we present SeqTrack for RGB-based tracking. It casts visual tracking as a sequence generation task, forecasting object bounding boxes in an autoregressive manner. This differs from previous trackers, which depend on the design of intricate head networks, such as classification and regression heads. SeqTrack employs a basic encoder-decoder transformer architecture. The encoder utilizes a bidirectional transformer for feature extraction, while the decoder generates bounding box sequences autoregressively using a causal transformer. The loss function is a plain cross-entropy. Second, we introduce SeqTrackv2, a unified sequence-to-sequence framework for multi-modal tracking tasks. Expanding upon SeqTrack, SeqTrackv2 integrates a unified interface for auxiliary modalities and a set of task-prompt tokens to specify the task. This enables it to manage multi-modal tracking tasks using a unified model and parameter set. This sequence learning paradigm not only simplifies the tracking framework, but also showcases superior performance across 14 challenging benchmarks spanning five single- and multi-modal tracking tasks. The code and models are available at https://github.com/chenxin-dlut/SeqTrackv2.
- Abstract(参考訳): 本稿では,RGBベースおよびマルチモーダルオブジェクト追跡のためのシーケンス・ツー・シーケンス学習フレームワークを提案する。
まず、RGBベースのトラッキングのためのSeqTrackを紹介する。
視覚的なトラッキングをシーケンス生成タスクとして、自動回帰的な方法でオブジェクト境界ボックスを予測します。
これは従来のトラッカーと異なり、分類や回帰ヘッドといった複雑なヘッドネットワークの設計に依存している。
SeqTrackは基本的なエンコーダ・デコーダ変換アーキテクチャを採用している。
エンコーダは特徴抽出に双方向変換器を用い、デコーダは因果変換器を用いて有界箱列を自己回帰的に生成する。
損失関数はプレーンなクロスエントロピーである。
第2に,マルチモーダルトラッキングタスクのためのシーケンス・ツー・シーケンス統合フレームワークであるSeqTrackv2を紹介する。
SeqTrackを拡張したSeqTrackv2は、補助的なモダリティのための統一インターフェースと、タスクを指定するためのタスクプロンプトトークンのセットを統合する。
これにより、統一モデルとパラメータセットを使用してマルチモーダルトラッキングタスクを管理することができる。
このシーケンス学習パラダイムは、トラッキングフレームワークを単純化するだけでなく、5つのシングルモーダルおよびマルチモーダルトラッキングタスクにまたがる14の課題ベンチマークにおいて優れたパフォーマンスを示す。
コードとモデルはhttps://github.com/chenxin-dlut/SeqTrackv2.comで公開されている。
関連論文リスト
- HSTrack: Bootstrap End-to-End Multi-Camera 3D Multi-object Tracking with Hybrid Supervision [34.7347336548199]
カメラベースの3Dマルチオブジェクトトラッキング(MOT)では、一般的な手法はトラッキング・バイ・クエリー・プロパゲーションのパラダイムに従っている。
本稿では,HSTrackを提案する。HSTrackは,マルチタスク学習を協調して検出・追跡する新しいプラグイン・アンド・プレイ方式である。
論文 参考訳(メタデータ) (2024-11-11T08:18:49Z) - OmniTracker: Unifying Object Tracking by Tracking-with-Detection [119.51012668709502]
OmniTrackerは、完全に共有されたネットワークアーキテクチャ、モデルウェイト、推論パイプラインですべてのトラッキングタスクを解決するために提供されている。
LaSOT、TrackingNet、DAVIS16-17、MOT17、MOTS20、YTVIS19を含む7つの追跡データセットの実験は、OmniTrackerがタスク固有の追跡モデルと統合された追跡モデルの両方よりも、オンパーまたはそれ以上の結果を達成することを示した。
論文 参考訳(メタデータ) (2023-03-21T17:59:57Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Unified Transformer Tracker for Object Tracking [58.65901124158068]
異なるシナリオにおけるトラッキング問題に1つのパラダイムで対処するために,UTT(Unified Transformer Tracker)を提案する。
SOT(Single Object Tracking)とMOT(Multiple Object Tracking)の両方を対象とするトラックトランスフォーマーを開発した。
論文 参考訳(メタデータ) (2022-03-29T01:38:49Z) - TrackFormer: Multi-Object Tracking with Transformers [92.25832593088421]
TrackFormerはエンコーダデコーダトランスフォーマーアーキテクチャに基づくエンドツーエンドのマルチオブジェクトトラッキングおよびセグメンテーションモデルです。
新しいトラッククエリはDETRオブジェクト検出器によって生成され、時間とともに対応するオブジェクトの位置を埋め込む。
trackformerは新しいトラッキング・バイ・アテンションパラダイムでフレーム間のシームレスなデータ関連付けを実現する。
論文 参考訳(メタデータ) (2021-01-07T18:59:29Z) - Chained-Tracker: Chaining Paired Attentive Regression Results for
End-to-End Joint Multiple-Object Detection and Tracking [102.31092931373232]
そこで我々は,3つのサブタスク全てをエンド・ツー・エンドのソリューションに統合する簡単なオンラインモデルである Chained-Tracker (CTracker) を提案する。
鎖状構造と対の注意的回帰という2つの大きな特徴は、CTrackerをシンプルに、速く、効果的にする。
論文 参考訳(メタデータ) (2020-07-29T02:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。