論文の概要: Siamese-DETR for Generic Multi-Object Tracking
- arxiv url: http://arxiv.org/abs/2310.17875v2
- Date: Fri, 14 Jun 2024 18:00:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 12:20:53.114842
- Title: Siamese-DETR for Generic Multi-Object Tracking
- Title(参考訳): 汎用多対象追跡のためのシームズDETR
- Authors: Qiankun Liu, Yichen Li, Yuqi Jiang, Ying Fu,
- Abstract要約: 従来のマルチオブジェクト追跡(MOT)は、事前に定義されたクローズドセットカテゴリに属するオブジェクトを追跡することに限定されている。
Siamese-DETRは、所定のテキストプロンプトとテンプレート画像を用いて、事前に定義されたカテゴリを超えてオブジェクトを追跡する。
Siamese-DETRはGMOT-40データセット上の既存のMOTメソッドを大きなマージンで上回る。
- 参考スコア(独自算出の注目度): 16.853363984562602
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The ability to detect and track the dynamic objects in different scenes is fundamental to real-world applications, e.g., autonomous driving and robot navigation. However, traditional Multi-Object Tracking (MOT) is limited to tracking objects belonging to the pre-defined closed-set categories. Recently, Open-Vocabulary MOT (OVMOT) and Generic MOT (GMOT) are proposed to track interested objects beyond pre-defined categories with the given text prompt and template image. However, the expensive well pre-trained (vision-)language model and fine-grained category annotations are required to train OVMOT models. In this paper, we focus on GMOT and propose a simple but effective method, Siamese-DETR, for GMOT. Only the commonly used detection datasets (e.g., COCO) are required for training. Different from existing GMOT methods, which train a Single Object Tracking (SOT) based detector to detect interested objects and then apply a data association based MOT tracker to get the trajectories, we leverage the inherent object queries in DETR variants. Specifically: 1) The multi-scale object queries are designed based on the given template image, which are effective for detecting different scales of objects with the same category as the template image; 2) A dynamic matching training strategy is introduced to train Siamese-DETR on commonly used detection datasets, which takes full advantage of provided annotations; 3) The online tracking pipeline is simplified through a tracking-by-query manner by incorporating the tracked boxes in previous frame as additional query boxes. The complex data association is replaced with the much simpler Non-Maximum Suppression (NMS). Extensive experimental results show that Siamese-DETR surpasses existing MOT methods on GMOT-40 dataset by a large margin.
- Abstract(参考訳): 異なるシーンにおける動的な物体を検出し、追跡する能力は、例えば自律運転やロボットナビゲーションといった現実世界の応用に不可欠である。
しかし、従来のマルチオブジェクト追跡(MOT)は、事前に定義されたクローズドセットカテゴリに属するオブジェクトを追跡することに限定されている。
近年,Open-Vocabulary MOT (OVMOT) とGeneric MOT (GMOT) が提案されている。
しかし、OVMOTモデルのトレーニングには、高価で事前訓練された(ビジョン-)言語モデルと詳細なカテゴリアノテーションが必要である。
本稿では,GMOTに焦点をあて,シンプルな手法であるSiamese-DETRを提案する。
トレーニングには一般的に使用される検出データセット(例えばCOCO)のみが必要である。
既存のGMOT法とは違って、Single Object Tracking(SOT)ベースの検出器を訓練し、興味のあるオブジェクトを検出し、データアソシエーションベースのMOTトラッカーを適用してトラジェクトリを得る。
具体的には
1) マルチスケールオブジェクトクエリはテンプレート画像に基づいて設計され, テンプレート画像と同じカテゴリのオブジェクトの異なるスケールを検出するのに有効である。
2) 提供するアノテーションを最大限に活用した,一般的に使用されている検出データセット上で,Siamese-DETRをトレーニングするための動的マッチングトレーニング戦略を導入する。
3) オンライントラッキングパイプラインは,前フレームのトラッキングボックスを追加のクエリボックスとして組み込むことで,トラッキング・バイ・クエリにより単純化される。
複雑なデータアソシエーションは、はるかに単純なNMS(Non-Maximum Suppression)に置き換えられる。
Siamese-DETRはGMOT-40データセット上の既存のMOT法を大きなマージンで上回っている。
関連論文リスト
- Enhanced Kalman with Adaptive Appearance Motion SORT for Grounded Generic Multiple Object Tracking [0.08333024746293495]
Grounded-GMOTは、ユーザーが自然言語記述子を通じてビデオ内の複数のジェネリックオブジェクトを追跡することができる革新的なトラッキングパラダイムである。
コントリビューションはG2MOTデータセットの導入から始まり、多様なジェネリックオブジェクトを特徴とするビデオのコレクションを含む。
そこで本研究では,視覚的外観を動作キューと効果的に統合するだけでなく,カルマンフィルタを改良した新しいトラッキング手法KAM-SORTを提案する。
論文 参考訳(メタデータ) (2024-10-11T20:38:17Z) - STCMOT: Spatio-Temporal Cohesion Learning for UAV-Based Multiple Object Tracking [13.269416985959404]
無人航空機(UAV)ビデオにおける複数物体追跡(MOT)は、コンピュータビジョンにおける多様な用途において重要である。
時空間結合型多目的追跡フレームワーク(STCMOT)を提案する。
歴史的埋め込み機能を用いて,ReIDの表現と検出機能を逐次的にモデル化する。
我々のフレームワークはMOTAとIDF1メトリクスで新しい最先端のパフォーマンスを設定します。
論文 参考訳(メタデータ) (2024-09-17T14:34:18Z) - TrajectoryFormer: 3D Object Tracking Transformer with Predictive
Trajectory Hypotheses [51.60422927416087]
3Dマルチオブジェクトトラッキング(MOT)は、自律走行車やサービスロボットを含む多くのアプリケーションにとって不可欠である。
本稿では,新しいポイントクラウドベースの3DMOTフレームワークであるTrjectoryFormerを紹介する。
論文 参考訳(メタデータ) (2023-06-09T13:31:50Z) - Z-GMOT: Zero-shot Generic Multiple Object Tracking [8.878331472995498]
マルチオブジェクト追跡(MOT)は、事前知識や事前定義されたカテゴリに依存するような制限に直面している。
これらの問題に対処するため、ジェネリック・マルチプル・オブジェクト・トラッキング(GMOT)が代替アプローチとして登場した。
我々は,初期バウンディングボックスや事前定義されたカテゴリを必要とせずに,テキストに表示されるカテゴリからオブジェクトを追跡する,最先端追跡ソリューションである$mathttZ-GMOT$を提案する。
論文 参考訳(メタデータ) (2023-05-28T06:44:33Z) - OVTrack: Open-Vocabulary Multiple Object Tracking [64.73379741435255]
OVTrackは任意のオブジェクトクラスを追跡することができるオープン語彙トラッカーである。
大規模な大語彙のTAOベンチマークに新たな最先端技術が設定されている。
論文 参考訳(メタデータ) (2023-04-17T16:20:05Z) - Unifying Tracking and Image-Video Object Detection [54.91658924277527]
TrIVD (Tracking and Image-Video Detection) は、画像OD、ビデオOD、MOTを1つのエンドツーエンドモデルに統合する最初のフレームワークである。
カテゴリラベルの相違やセマンティックな重複に対処するため、TrIVDは対象カテゴリに対する検出/追跡を基礎と理由として定式化している。
論文 参考訳(メタデータ) (2022-11-20T20:30:28Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Unified Transformer Tracker for Object Tracking [58.65901124158068]
異なるシナリオにおけるトラッキング問題に1つのパラダイムで対処するために,UTT(Unified Transformer Tracker)を提案する。
SOT(Single Object Tracking)とMOT(Multiple Object Tracking)の両方を対象とするトラックトランスフォーマーを開発した。
論文 参考訳(メタデータ) (2022-03-29T01:38:49Z) - Exploring Simple 3D Multi-Object Tracking for Autonomous Driving [10.921208239968827]
LiDARポイントクラウドにおける3Dマルチオブジェクトトラッキングは、自動運転車にとって重要な要素である。
既存の手法は、主にトラッキング・バイ・検出パイプラインに基づいており、検出アソシエーションのマッチングステップが必然的に必要である。
我々は,手作りの追跡パラダイムをシンプルにするために,原点雲からの共同検出と追跡のためのエンドツーエンドのトレーニング可能なモデルを提案する。
論文 参考訳(メタデータ) (2021-08-23T17:59:22Z) - Simultaneous Detection and Tracking with Motion Modelling for Multiple
Object Tracking [94.24393546459424]
本稿では,複数の物体の運動パラメータを推定し,共同検出と関連付けを行うディープ・モーション・モデリング・ネットワーク(DMM-Net)を提案する。
DMM-Netは、人気の高いUA-DETRACチャレンジで12.80 @120+ fpsのPR-MOTAスコアを達成した。
また,車両追跡のための大規模な公開データセットOmni-MOTを合成し,精密な接地トルースアノテーションを提供する。
論文 参考訳(メタデータ) (2020-08-20T08:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。