論文の概要: Z-GMOT: Zero-shot Generic Multiple Object Tracking
- arxiv url: http://arxiv.org/abs/2305.17648v4
- Date: Thu, 13 Jun 2024 14:58:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-15 02:29:06.845685
- Title: Z-GMOT: Zero-shot Generic Multiple Object Tracking
- Title(参考訳): Z-GMOT:ゼロショットジェネリック多目的追跡
- Authors: Kim Hoang Tran, Anh Duy Le Dinh, Tien Phat Nguyen, Thinh Phan, Pha Nguyen, Khoa Luu, Donald Adjeroh, Gianfranco Doretto, Ngan Hoang Le,
- Abstract要約: マルチオブジェクト追跡(MOT)は、事前知識や事前定義されたカテゴリに依存するような制限に直面している。
これらの問題に対処するため、ジェネリック・マルチプル・オブジェクト・トラッキング(GMOT)が代替アプローチとして登場した。
我々は,初期バウンディングボックスや事前定義されたカテゴリを必要とせずに,テキストに表示されるカテゴリからオブジェクトを追跡する,最先端追跡ソリューションである$mathttZ-GMOT$を提案する。
- 参考スコア(独自算出の注目度): 8.878331472995498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent significant progress, Multi-Object Tracking (MOT) faces limitations such as reliance on prior knowledge and predefined categories and struggles with unseen objects. To address these issues, Generic Multiple Object Tracking (GMOT) has emerged as an alternative approach, requiring less prior information. However, current GMOT methods often rely on initial bounding boxes and struggle to handle variations in factors such as viewpoint, lighting, occlusion, and scale, among others. Our contributions commence with the introduction of the \textit{Referring GMOT dataset} a collection of videos, each accompanied by detailed textual descriptions of their attributes. Subsequently, we propose $\mathtt{Z-GMOT}$, a cutting-edge tracking solution capable of tracking objects from \textit{never-seen categories} without the need of initial bounding boxes or predefined categories. Within our $\mathtt{Z-GMOT}$ framework, we introduce two novel components: (i) $\mathtt{iGLIP}$, an improved Grounded language-image pretraining, for accurately detecting unseen objects with specific characteristics. (ii) $\mathtt{MA-SORT}$, a novel object association approach that adeptly integrates motion and appearance-based matching strategies to tackle the complex task of tracking objects with high similarity. Our contributions are benchmarked through extensive experiments conducted on the Referring GMOT dataset for GMOT task. Additionally, to assess the generalizability of the proposed $\mathtt{Z-GMOT}$, we conduct ablation studies on the DanceTrack and MOT20 datasets for the MOT task. Our dataset, code, and models are released at: https://fsoft-aic.github.io/Z-GMOT.
- Abstract(参考訳): 最近の顕著な進歩にもかかわらず、MOT(Multi-Object Tracking)は、事前知識や事前定義されたカテゴリへの依存や、目に見えないオブジェクトとの競合といった制限に直面している。
これらの問題に対処するため、GMOT(Generic Multiple Object Tracking)が代替のアプローチとして登場し、事前情報が少なくなった。
しかし、現在のGMOT法は、しばしば初期境界ボックスに依存し、視点、照明、閉塞、スケールなど様々な要因を扱うのに苦労する。
私たちのコントリビューションは、ビデオの集合である‘textit{Referring GMOT dataset}の導入から始まり、それぞれの属性の詳細なテキスト記述が伴います。
次に、初期境界ボックスや事前定義されたカテゴリを必要とせずに、 \textit{never-seen category} からオブジェクトを追跡することができる最先端追跡ソリューションである $\mathtt{Z-GMOT}$ を提案する。
私たちは$\mathtt{Z-GMOT}$フレームワークの中で、2つの新しいコンポーネントを紹介します。
(i) $\matht{iGLIP}$は、特定の特徴を持つ未確認オブジェクトを正確に検出する、改良されたグラウンドド言語イメージ事前トレーニングである。
(ii) $\mathtt{MA-SORT}$は、動きと外見に基づくマッチング戦略を包括的に統合して、オブジェクトを高い類似性で追跡する複雑なタスクに取り組む、新しいオブジェクトアソシエーションアプローチである。
我々のコントリビューションは、GMOTタスクのためのReferring GMOTデータセットで実施された広範な実験を通じてベンチマークされる。
さらに、提案した$\mathtt{Z-GMOT}$の一般化性を評価するために、MOTタスクのためのDanceTrackおよびMOT20データセットのアブレーション研究を行う。
私たちのデータセット、コード、モデルは、https://fsoft-aic.github.io/Z-GMOT.com/でリリースされます。
関連論文リスト
- Siamese-DETR for Generic Multi-Object Tracking [16.853363984562602]
従来のマルチオブジェクト追跡(MOT)は、事前に定義されたクローズドセットカテゴリに属するオブジェクトを追跡することに限定されている。
Siamese-DETRは、所定のテキストプロンプトとテンプレート画像を用いて、事前に定義されたカテゴリを超えてオブジェクトを追跡する。
Siamese-DETRはGMOT-40データセット上の既存のMOTメソッドを大きなマージンで上回る。
論文 参考訳(メタデータ) (2023-10-27T03:32:05Z) - UnsMOT: Unified Framework for Unsupervised Multi-Object Tracking with
Geometric Topology Guidance [6.577227592760559]
UnsMOTは、オブジェクトの外観と運動の特徴と幾何学的情報を組み合わせて、より正確なトラッキングを提供する新しいフレームワークである。
実験結果から, HOTA, IDF1, MOTAの計測値において, 最先端手法と比較して顕著な性能を示した。
論文 参考訳(メタデータ) (2023-09-03T04:58:12Z) - OVTrack: Open-Vocabulary Multiple Object Tracking [64.73379741435255]
OVTrackは任意のオブジェクトクラスを追跡することができるオープン語彙トラッカーである。
大規模な大語彙のTAOベンチマークに新たな最先端技術が設定されている。
論文 参考訳(メタデータ) (2023-04-17T16:20:05Z) - OmniTracker: Unifying Object Tracking by Tracking-with-Detection [119.51012668709502]
OmniTrackerは、完全に共有されたネットワークアーキテクチャ、モデルウェイト、推論パイプラインですべてのトラッキングタスクを解決するために提供されている。
LaSOT、TrackingNet、DAVIS16-17、MOT17、MOTS20、YTVIS19を含む7つの追跡データセットの実験は、OmniTrackerがタスク固有の追跡モデルと統合された追跡モデルの両方よりも、オンパーまたはそれ以上の結果を達成することを示した。
論文 参考訳(メタデータ) (2023-03-21T17:59:57Z) - Unifying Tracking and Image-Video Object Detection [54.91658924277527]
TrIVD (Tracking and Image-Video Detection) は、画像OD、ビデオOD、MOTを1つのエンドツーエンドモデルに統合する最初のフレームワークである。
カテゴリラベルの相違やセマンティックな重複に対処するため、TrIVDは対象カテゴリに対する検出/追跡を基礎と理由として定式化している。
論文 参考訳(メタデータ) (2022-11-20T20:30:28Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - RLM-Tracking: Online Multi-Pedestrian Tracking Supported by Relative
Location Mapping [5.9669075749248774]
マルチオブジェクトトラッキングの問題は、公安、輸送、自動運転車、ロボティクス、人工知能を含む他の領域で広く利用されている、基本的なコンピュータビジョン研究の焦点である。
本稿では、オブジェクト textbfRelative Location Mapping (RLM) モデルと textbfTarget Region Density (TRD) モデルを含む、上記の問題に対する新しいマルチオブジェクトトラッカーを設計する。
新しいトラッカーは、オブジェクト間の位置関係の違いに敏感である。
物体の密度に応じてリアルタイムで異なる領域に低スコア検出フレームを導入することができる
論文 参考訳(メタデータ) (2022-10-19T11:37:14Z) - Multi-Object Tracking and Segmentation via Neural Message Passing [0.0]
グラフは、Multiple Object Tracking (MOT) とMultiple Object Tracking (MOTS) を定式化する自然な方法を提供する。
我々は、メッセージパッシングネットワーク(MPN)に基づく、完全に差別化可能なフレームワークを定義するために、MOTの古典的なネットワークフロー定式化を利用する。
いくつかの公開データセットにおけるトラッキングとセグメンテーションの両面での最先端の結果が得られます。
論文 参考訳(メタデータ) (2022-07-15T13:03:47Z) - Unified Transformer Tracker for Object Tracking [58.65901124158068]
異なるシナリオにおけるトラッキング問題に1つのパラダイムで対処するために,UTT(Unified Transformer Tracker)を提案する。
SOT(Single Object Tracking)とMOT(Multiple Object Tracking)の両方を対象とするトラックトランスフォーマーを開発した。
論文 参考訳(メタデータ) (2022-03-29T01:38:49Z) - Chained-Tracker: Chaining Paired Attentive Regression Results for
End-to-End Joint Multiple-Object Detection and Tracking [102.31092931373232]
そこで我々は,3つのサブタスク全てをエンド・ツー・エンドのソリューションに統合する簡単なオンラインモデルである Chained-Tracker (CTracker) を提案する。
鎖状構造と対の注意的回帰という2つの大きな特徴は、CTrackerをシンプルに、速く、効果的にする。
論文 参考訳(メタデータ) (2020-07-29T02:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。