論文の概要: From Detection to Association: Learning Discriminative Object Embeddings for Multi-Object Tracking
- arxiv url: http://arxiv.org/abs/2512.02392v1
- Date: Tue, 02 Dec 2025 04:04:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.711142
- Title: From Detection to Association: Learning Discriminative Object Embeddings for Multi-Object Tracking
- Title(参考訳): 検出からアソシエーションへ:多対象追跡のための識別的オブジェクト埋め込みを学習する
- Authors: Yuqing Shao, Yuchen Yang, Rui Yu, Weilong Li, Xu Guo, Huaicheng Yan, Wei Wang, Xiao Sun,
- Abstract要約: 本稿では,3つの視点にまたがってオブジェクトの識別性を高める明示的な特徴フレームワークを提案する。
実験によると、SpngeBobAはDanceTrack、SportsMOT、BFTなど、複数の挑戦的なMOTベンチマークで最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 24.903851740154433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end multi-object tracking (MOT) methods have recently achieved remarkable progress by unifying detection and association within a single framework. Despite their strong detection performance, these methods suffer from relatively low association accuracy. Through detailed analysis, we observe that object embeddings produced by the shared DETR architecture display excessively high inter-object similarity, as it emphasizes only category-level discrimination within single frames. In contrast, tracking requires instance-level distinction across frames with spatial and temporal continuity, for which current end-to-end approaches insufficiently optimize object embeddings. To address this, we introduce FDTA (From Detection to Association), an explicit feature refinement framework that enhances object discriminativeness across three complementary perspectives. Specifically, we introduce a Spatial Adapter (SA) to integrate depth-aware cues for spatial continuity, a Temporal Adapter (TA) to aggregate historical information for temporal dependencies, and an Identity Adapter (IA) to leverage quality-aware contrastive learning for instance-level separability. Extensive experiments demonstrate that FDTA achieves state-of-the-art performance on multiple challenging MOT benchmarks, including DanceTrack, SportsMOT, and BFT, highlighting the effectiveness of our proposed discriminative embedding enhancement strategy. The code is available at https://github.com/Spongebobbbbbbbb/FDTA.
- Abstract(参考訳): エンドツーエンドのマルチオブジェクトトラッキング(MOT)手法は,最近,単一のフレームワーク内で検出と関連性を統一することによって,顕著な進歩を遂げている。
強い検出性能にもかかわらず、これらの手法は比較的低い相関精度に悩まされる。
詳細な分析により、共有DETRアーキテクチャによって生成されたオブジェクトの埋め込みは、単一のフレーム内でのみカテゴリレベルの識別を強調するため、オブジェクト間の類似度が過度に高いことを観察する。
対照的に、トラッキングには空間的および時間的連続性のあるフレーム間のインスタンスレベルの区別が必要であり、現在のエンドツーエンドアプローチではオブジェクトの埋め込みを十分に最適化できない。
そこで我々はFDTA(From Detection to Association)という,3つの相補的な視点でオブジェクトの識別性を高める明示的な特徴改善フレームワークを紹介した。
具体的には、空間的連続性のための奥行き認識キューを統合する空間適応器(SA)と、時間的依存に関する履歴情報を集約する時間適応器(TA)と、インスタンスレベルの分離性のための品質認識コントラスト学習を活用するアイデンティティ適応器(IA)を導入する。
大規模な実験により、FDTAはDanceTrack、SportsMOT、BFTを含む複数の挑戦的なMOTベンチマークで最先端のパフォーマンスを達成し、提案した差別的埋め込み強化戦略の有効性を強調した。
コードはhttps://github.com/Spongebobbbbbbbb/FDTAで入手できる。
関連論文リスト
- Spatio-temporal Graph Learning on Adaptive Mined Key Frames for High-performance Multi-Object Tracking [5.746443489229576]
キーフレーム抽出(KFE)モジュールは、強化学習を利用して動画を適応的にセグメントする。
フレーム内フィーチャーフュージョン(IFF)モジュールは、ターゲットと周辺オブジェクト間の情報交換を容易にするために、グラフ畳み込みネットワーク(GCN)を使用する。
提案したトラッカーはMOT17データセット上で印象的な結果が得られる。
論文 参考訳(メタデータ) (2025-01-17T11:36:38Z) - Collaborative Feature-Logits Contrastive Learning for Open-Set Semi-Supervised Object Detection [75.02249869573994]
オープンセットのシナリオでは、ラベルなしデータセットには、イン・ディストリビューション(ID)クラスとアウト・オブ・ディストリビューション(OOD)クラスの両方が含まれている。
このような設定で半教師付き検出器を適用すると、OODクラスをIDクラスとして誤分類する可能性がある。
我々は、CFL-Detector(Collaborative Feature-Logits Detector)と呼ばれるシンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-11-20T02:57:35Z) - Spatial-Temporal Multi-level Association for Video Object Segmentation [89.32226483171047]
本稿では,参照フレーム,テストフレーム,オブジェクト特徴を相互に関連付ける空間的・時間的多レベルアソシエーションを提案する。
具体的には,空間的・時間的多段階特徴関連モジュールを構築し,より優れた目標認識特徴を学習する。
論文 参考訳(メタデータ) (2024-04-09T12:44:34Z) - Occlusion-Aware Detection and Re-ID Calibrated Network for Multi-Object
Tracking [38.36872739816151]
検出器内のOAA(Occlusion-Aware Attention)モジュールは、隠蔽された背景領域を抑えながらオブジェクトの特徴を強調する。
OAAは、隠蔽される可能性のある物体の検出器を強化する変調器として機能する。
最適輸送問題に基づくRe-ID埋め込みマッチングブロックを設計する。
論文 参考訳(メタデータ) (2023-08-30T06:56:53Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z) - Exploiting Domain Transferability for Collaborative Inter-level Domain
Adaptive Object Detection [17.61278045720336]
オブジェクト検出のためのドメイン適応(DAOD)は、アノテーションなしで対象オブジェクトを検出できるため、最近注目を集めている。
従来の研究は、2段階検出器の部分的なレベルから抽出した特徴を、対向訓練によって整列させることに重点を置いていた。
本稿では,マルチスケール対応不確実性注意(MUA),転送可能領域ネットワーク(TRPN),動的インスタンスサンプリング(DIS)の3つのコンポーネントを用いた提案手法を提案する。
論文 参考訳(メタデータ) (2022-07-20T01:50:26Z) - Scalable Video Object Segmentation with Identification Mechanism [125.4229430216776]
本稿では,半教師付きビデオオブジェクト(VOS)のスケーラブルで効果的なマルチオブジェクトモデリングを実現する上での課題について検討する。
AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)の2つの革新的なアプローチを提案する。
当社のアプローチは最先端の競合に勝って,6つのベンチマークすべてにおいて,例外的な効率性とスケーラビリティを一貫して示しています。
論文 参考訳(メタデータ) (2022-03-22T03:33:27Z) - Online Multiple Object Tracking with Cross-Task Synergy [120.70085565030628]
位置予測と埋め込み結合の相乗効果を考慮した新しい統一モデルを提案する。
この2つのタスクは、時間認識対象の注意と注意の注意、およびアイデンティティ認識メモリ集約モデルによってリンクされる。
論文 参考訳(メタデータ) (2021-04-01T10:19:40Z) - Multi-object Tracking with a Hierarchical Single-branch Network [31.680667324595557]
階層的な単一ブランチネットワークに基づくオンライン多目的追跡フレームワークを提案する。
新たなiHOIM損失関数は,2つのサブタスクの目的を統一し,より優れた検出性能を実現する。
MOT16とMOT20データセットの実験結果から,最先端のトラッキング性能が達成できた。
論文 参考訳(メタデータ) (2021-01-06T12:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。