論文の概要: Tracking by Detection and Query: An Efficient End-to-End Framework for Multi-Object Tracking
- arxiv url: http://arxiv.org/abs/2411.06197v2
- Date: Sat, 28 Jun 2025 02:52:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 15:08:38.638036
- Title: Tracking by Detection and Query: An Efficient End-to-End Framework for Multi-Object Tracking
- Title(参考訳): 検出とクエリによるトラッキング:マルチオブジェクト追跡のための効率的なエンドツーエンドフレームワーク
- Authors: Shukun Jia, Shiyu Hu, Yichao Cao, Feng Yang, Xin Lu, Xiaobo Lu,
- Abstract要約: マルチオブジェクトトラッキング(MOT)は、トラッキング・バイ・検出(TBD)とトラッキング・バイ・クエリ(TBQ)の2つのパラダイムによって支配されている。
本稿では,両パラダイムの長所を効果的に組み合わせたTBDQ-Netを提案する。
提案手法は,MOT調整アソシエータと事前学習した高性能検出器を効率よく統合する。
- 参考スコア(独自算出の注目度): 23.800994163971502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-object tracking (MOT) is dominated by two paradigms: tracking-by-detection (TBD) and tracking-by-query (TBQ). While TBD is decoupled and efficient, its fragmented association steps and heuristic matching pipelines often compromise robustness in complex scenarios. TBQ provides stronger semantic modeling through end-to-end learning, but suffers from high training cost and slow inference due to tight coupling between detection and association. To address these challenges, we propose TBDQ-Net, a unified tracking-by-detection-and-query (TBDQ) framework that effectively combines the strengths of both paradigms. Our method efficiently integrates pretrained, high-performance detectors with an MOT-tailored associator. The associator is lightweight and directly fetches information from the inference of detectors, enhancing the overall efficiency of the framework. The associator is also learnable, making it essential for fully end-to-end optimization, ensuring robust tracking capabilities. Specifically, the associator comprises two key modules: basic information interaction (BII) for comprehensive semantic interaction, and content-position alignment (CPA) for semantic and positional consistency. TBDQ-Net's effectiveness is extensively demonstrated on DanceTrack, SportsMOT and MOT20 benchmarks. As a structurally efficient and semantically robust tracking framework, it outperforms the leading TBD method by 6.0 IDF1 points on DanceTrack and achieves at least 37.5% faster inference than prominent TBQ methods.
- Abstract(参考訳): マルチオブジェクトトラッキング(MOT)は、トラッキング・バイ・検出(TBD)とトラッキング・バイ・クエリ(TBQ)の2つのパラダイムによって支配されている。
TBDは分離され効率が良いが、その断片化された関連ステップとヒューリスティックなマッチングパイプラインは複雑なシナリオにおいて堅牢性を損なうことが多い。
TBQは、エンドツーエンドの学習を通じてより強力なセマンティックモデリングを提供するが、検出と関連性の密接な結合により、高いトレーニングコストと遅い推論に悩まされる。
これらの課題に対処するため,両パラダイムの長所を効果的に組み合わせたTBDQ-Netを提案する。
提案手法は,MOT調整アソシエータと事前学習した高性能検出器を効率よく統合する。
アソシエータは軽量で、検出器の推測から情報を直接取得し、フレームワーク全体の効率を高める。
また、アソシエータは学習可能で、完全なエンドツーエンドの最適化に不可欠であり、堅牢なトラッキング機能を保証する。
具体的には、包括的セマンティックインタラクションのための基本的な情報相互作用(BII)と、セマンティックおよび位置整合性のためのコンテントポジションアライメント(CPA)の2つの重要なモジュールから構成される。
TBDQ-Netの有効性は、DanceTrack、SportsMOT、MOT20ベンチマークで広く実証されている。
構造的に効率的でセマンティックに堅牢なトラッキングフレームワークとして、DanceTrackでは6.0 IDF1ポイントのリードTBDメソッドよりも優れており、TBQメソッドよりも少なくとも37.5%高速な推論を実現している。
関連論文リスト
- SynCL: A Synergistic Training Strategy with Instance-Aware Contrastive Learning for End-to-End Multi-Camera 3D Tracking [34.90147791481045]
SynCLは、検出と追跡のためのマルチタスク学習を共用するために設計された、新しいプラグアンドプレイのシナジスティックトレーニング戦略である。
各種クエリベースの3D MOTトラッカーのトレーニング段階と統合した場合,SynCLは一貫して改善されていることを示す。
追加の推論コストなしで、SynCLは最先端のPF-Trackメソッドを$+3.9%のAMOTAと$+2.0%のNDSで改善した。
論文 参考訳(メタデータ) (2024-11-11T08:18:49Z) - ADA-Track: End-to-End Multi-Camera 3D Multi-Object Tracking with Alternating Detection and Association [15.161640917854363]
多視点カメラによる3D MOTのための新しいエンドツーエンドフレームワークであるADA-Trackを紹介する。
エッジ拡張型クロスアテンションに基づく学習可能なデータアソシエーションモジュールを提案する。
我々は、この関連モジュールをDTRベースの3D検出器のデコーダ層に統合する。
論文 参考訳(メタデータ) (2024-05-14T19:02:33Z) - Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking [55.13878429987136]
そこで本研究では,異なる目標に対して,単発と複数発の特徴を共同で学習するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。
提案手法は,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-11-17T08:17:49Z) - You Only Need Two Detectors to Achieve Multi-Modal 3D Multi-Object Tracking [9.20064374262956]
提案手法は,2次元検出器と3次元検出器のみを用いて,ロバストなトラッキングを実現する。
多くの最先端のTBDベースのマルチモーダルトラッキング手法よりも正確であることが証明されている。
論文 参考訳(メタデータ) (2023-04-18T02:45:18Z) - OmniTracker: Unifying Object Tracking by Tracking-with-Detection [119.51012668709502]
OmniTrackerは、完全に共有されたネットワークアーキテクチャ、モデルウェイト、推論パイプラインですべてのトラッキングタスクを解決するために提供されている。
LaSOT、TrackingNet、DAVIS16-17、MOT17、MOTS20、YTVIS19を含む7つの追跡データセットの実験は、OmniTrackerがタスク固有の追跡モデルと統合された追跡モデルの両方よりも、オンパーまたはそれ以上の結果を達成することを示した。
論文 参考訳(メタデータ) (2023-03-21T17:59:57Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Unified Transformer Tracker for Object Tracking [58.65901124158068]
異なるシナリオにおけるトラッキング問題に1つのパラダイムで対処するために,UTT(Unified Transformer Tracker)を提案する。
SOT(Single Object Tracking)とMOT(Multiple Object Tracking)の両方を対象とするトラックトランスフォーマーを開発した。
論文 参考訳(メタデータ) (2022-03-29T01:38:49Z) - Joint Feature Learning and Relation Modeling for Tracking: A One-Stream
Framework [76.70603443624012]
特徴学習と関係モデリングを統合した新しい一ストリーム追跡(OSTrack)フレームワークを提案する。
このようにして、相互誘導により識別的目標指向特徴を動的に抽出することができる。
OSTrackは、複数のベンチマークで最先端のパフォーマンスを実現しており、特に、ワンショットトラッキングベンチマークのGOT-10kでは印象的な結果を示している。
論文 参考訳(メタデータ) (2022-03-22T18:37:11Z) - DSRRTracker: Dynamic Search Region Refinement for Attention-based
Siamese Multi-Object Tracking [13.104037155691644]
本稿では,ガウスフィルタにインスパイアされた動的探索領域改良モジュールを用いたエンドツーエンドMOT法を提案する。
提案手法は,最先端の性能を妥当な速度で達成することができる。
論文 参考訳(メタデータ) (2022-03-21T04:14:06Z) - Exploring Simple 3D Multi-Object Tracking for Autonomous Driving [10.921208239968827]
LiDARポイントクラウドにおける3Dマルチオブジェクトトラッキングは、自動運転車にとって重要な要素である。
既存の手法は、主にトラッキング・バイ・検出パイプラインに基づいており、検出アソシエーションのマッチングステップが必然的に必要である。
我々は,手作りの追跡パラダイムをシンプルにするために,原点雲からの共同検出と追跡のためのエンドツーエンドのトレーニング可能なモデルを提案する。
論文 参考訳(メタデータ) (2021-08-23T17:59:22Z) - DEFT: Detection Embeddings for Tracking [3.326320568999945]
我々は,DEFT と呼ばれる効率的な関節検出・追跡モデルを提案する。
提案手法は,外見に基づくオブジェクトマッチングネットワークと,下層のオブジェクト検出ネットワークとの協調学習に依存している。
DEFTは2Dオンライントラッキングリーダーボードのトップメソッドに匹敵する精度とスピードを持っている。
論文 参考訳(メタデータ) (2021-02-03T20:00:44Z) - TAO: A Large-Scale Benchmark for Tracking Any Object [95.87310116010185]
オブジェクトのデータセットの追跡は2,907本の高解像度ビデオで構成され、平均で30分の長さの多様な環境でキャプチャされる。
ビデオの任意の時点で移動するオブジェクトにアノテータにラベルを付け、ファクトラムの後に名前を付けるように求めます。
我々の語彙は、既存の追跡データセットと著しく大きく、質的に異なる。
論文 参考訳(メタデータ) (2020-05-20T21:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。