論文の概要: COVTrack++: Learning Open-Vocabulary Multi-Object Tracking from Continuous Videos via a Synergistic Paradigm
- arxiv url: http://arxiv.org/abs/2603.24016v1
- Date: Wed, 25 Mar 2026 07:20:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.180269
- Title: COVTrack++: Learning Open-Vocabulary Multi-Object Tracking from Continuous Videos via a Synergistic Paradigm
- Title(参考訳): COVTrack++: 相乗的パラダイムによる連続ビデオからのオープン語彙マルチオブジェクト追跡学習
- Authors: Zekun Qian, Wei Feng, Ruize Han, Junhui Hou,
- Abstract要約: C-TAOはOpen-Vocabulary Multi-Object Tracking (OVMOT)のための最初の連続アノテーション付きトレーニングセットである
フレームワークボトルネックに対するCOVTrack++は,3つのモジュールによる検出とアソシエーションの双方向相互機構を実現するための相乗的フレームワークである。
TAOの実験では、新しいTAAは検証とテストセットで35.4%、30.5%に達し、新しいAssocAは4.8%、新しいLocAは5.8%向上した。
- 参考スコア(独自算出の注目度): 59.26203051651017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-Object Tracking (MOT) has traditionally focused on a few specific categories, restricting its applicability to real-world scenarios involving diverse objects. Open-Vocabulary Multi-Object Tracking (OVMOT) addresses this by enabling tracking of arbitrary categories, including novel objects unseen during training. However, current progress is constrained by two challenges: the lack of continuously annotated video data for training, and the lack of a customized OVMOT framework to synergistically handle detection and association. We address the data bottleneck by constructing C-TAO, the first continuously annotated training set for OVMOT, which increases annotation density by 26x over the original TAO and captures smooth motion dynamics and intermediate object states. For the framework bottleneck, we propose COVTrack++, a synergistic framework that achieves a bidirectional reciprocal mechanism between detection and association through three modules: (1) Multi-Cue Adaptive Fusion (MCF) dynamically balances appearance, motion, and semantic cues for association feature learning; (2) Multi-Granularity Hierarchical Aggregation (MGA) exploits hierarchical spatial relationships in dense detections, where visible child nodes (e.g., object parts) assist occluded parent objects (e.g., whole body) for association feature enhancement; (3) Temporal Confidence Propagation (TCP) recovers flickering detections through high-confidence tracked objects boosting low-confidence candidates across frames, stabilizing trajectories. Extensive experiments on TAO demonstrate state-of-the-art performance, with novel TETA reaching 35.4% and 30.5% on validation and test sets, improving novel AssocA by 4.8% and novel LocA by 5.8% over previous methods, and show strong zero-shot generalization on BDD100K. The code and dataset will be publicly available.
- Abstract(参考訳): 従来、MOT(Multi-Object Tracking)はいくつかの特定のカテゴリに重点を置いてきた。
Open-Vocabulary Multi-Object Tracking (OVMOT)は、トレーニング中に見えない新しいオブジェクトを含む任意のカテゴリをトラッキング可能にすることで、この問題に対処する。
しかし、現在の進歩は、トレーニングのための継続的なアノテーション付きビデオデータの欠如と、検出と関連を相乗的に扱うためのカスタマイズされたOVMOTフレームワークの欠如という2つの課題によって制限されている。
我々は,OVMOTの最初の連続アノテーション付きトレーニングセットであるC-TAOを構築することで,データボトルネックに対処する。
フレームワークのボトルネックとして,(1)マルチキュー・アダプティブ・フュージョン(MCF, Multi-Cue Adaptive Fusion, マルチキュー・アダプティブ・フュージョン)は,特徴学習のための外観,動作,意味的キューを動的にバランスさせる,(2)マルチグラニュラリティ・階層的アグリゲーション(MGA)は,高密度検出における階層的空間的関係を生かし,可視な子ノード(eg, 対象部分)が保護された親オブジェクト(eg, 体全体)を結合機能拡張のために支援する,(3)テンポラル・コンピデンス・プロパゲーション(TCP)は,高信頼度な追跡対象によるフリックリングの検出を回復させる,という3つのモジュールによる双方向の相互の機構を実現する,相乗的フレームワークであるCOVTrack++を提案する。
TAOに関する大規模な実験では、新しいTAAは検証とテストセットで35.4%、30.5%に達し、新しいAssocAは4.8%、新しいLocAは5.8%向上し、BDD100Kでは強力なゼロショット一般化を示している。
コードとデータセットが公開される。
関連論文リスト
- From Detection to Association: Learning Discriminative Object Embeddings for Multi-Object Tracking [24.903851740154433]
本稿では,3つの視点にまたがってオブジェクトの識別性を高める明示的な特徴フレームワークを提案する。
実験によると、SpngeBobAはDanceTrack、SportsMOT、BFTなど、複数の挑戦的なMOTベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-02T04:04:39Z) - A Tri-Modal Dataset and a Baseline System for Tracking Unmanned Aerial Vehicles [74.8162337823142]
MM-UAVはMulti-Modal UAV Trackingの最初の大規模ベンチマークである。
データセットは30以上の挑戦的なシナリオにまたがっており、1,321の同期マルチモーダルシーケンスと280万以上の注釈付きフレームがある。
データセットを伴って、我々は新しいマルチモーダルマルチUAV追跡フレームワークを提供する。
論文 参考訳(メタデータ) (2025-11-23T08:42:17Z) - DINO-CoDT: Multi-class Collaborative Detection and Tracking with Vision Foundation Models [11.34839442803445]
道路利用者を対象とした多クラス協調検出・追跡フレームワークを提案する。
まず,大域的空間注意融合(GSAF)モジュールを用いた検出器を提案する。
次に,視覚基盤モデルを用いた視覚的セマンティクスを活用し,IDSW(ID SWitch)エラーを効果的に低減するトラックレットRe-IDentification(REID)モジュールを提案する。
論文 参考訳(メタデータ) (2025-06-09T02:49:10Z) - Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking [55.13878429987136]
そこで本研究では,異なる目標に対して,単発と複数発の特徴を共同で学習するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。
提案手法は,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-11-17T08:17:49Z) - You Only Need Two Detectors to Achieve Multi-Modal 3D Multi-Object Tracking [9.20064374262956]
提案手法は,2次元検出器と3次元検出器のみを用いて,ロバストなトラッキングを実現する。
多くの最先端のTBDベースのマルチモーダルトラッキング手法よりも正確であることが証明されている。
論文 参考訳(メタデータ) (2023-04-18T02:45:18Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - 3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D
Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。
本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文 参考訳(メタデータ) (2022-11-01T20:59:38Z) - InterTrack: Interaction Transformer for 3D Multi-Object Tracking [9.283656931246645]
3Dマルチオブジェクトトラッキング(MOT)は、自動運転車にとって重要な問題である。
提案手法であるInterTrackは,データアソシエーションのための識別対象表現を生成する。
我々はnuScenes 3D MOTベンチマークのアプローチを検証する。
論文 参考訳(メタデータ) (2022-08-17T03:24:36Z) - Online Multiple Object Tracking with Cross-Task Synergy [120.70085565030628]
位置予測と埋め込み結合の相乗効果を考慮した新しい統一モデルを提案する。
この2つのタスクは、時間認識対象の注意と注意の注意、およびアイデンティティ認識メモリ集約モデルによってリンクされる。
論文 参考訳(メタデータ) (2021-04-01T10:19:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。