論文の概要: SynCL: A Synergistic Training Strategy with Instance-Aware Contrastive Learning for End-to-End Multi-Camera 3D Tracking
- arxiv url: http://arxiv.org/abs/2411.06780v2
- Date: Sat, 25 Jan 2025 08:52:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:50:55.744882
- Title: SynCL: A Synergistic Training Strategy with Instance-Aware Contrastive Learning for End-to-End Multi-Camera 3D Tracking
- Title(参考訳): SynCL: エンド・ツー・エンドのマルチカメラ3Dトラッキングのためのインスタンス対応コントラスト学習を用いた総合的学習戦略
- Authors: Shubo Lin, Yutong Kou, Zirui Wu, Shaoru Wang, Bing Li, Weiming Hu, Jin Gao,
- Abstract要約: SynCLは、検出と追跡のためのマルチタスク学習を共用するために設計された、新しいプラグアンドプレイのシナジスティックトレーニング戦略である。
各種クエリベースの3D MOTトラッカーのトレーニング段階と統合した場合,SynCLは一貫して改善されていることを示す。
追加の推論コストなしで、SynCLは最先端のPF-Trackメソッドを$+3.9%のAMOTAと$+2.0%のNDSで改善した。
- 参考スコア(独自算出の注目度): 34.90147791481045
- License:
- Abstract: While existing query-based 3D end-to-end visual trackers integrate detection and tracking via the tracking-by-attention paradigm, these two chicken-and-egg tasks encounter optimization difficulties when sharing the same parameters. Our findings reveal that these difficulties arise due to two inherent constraints on the self-attention mechanism, i.e., over-deduplication for object queries and self-centric attention for track queries. In contrast, removing self-attention mechanism not only minimally impacts regression predictions of the tracker, but also tends to generate more latent candidate boxes. Based on these analyses, we present SynCL, a novel plug-and-play synergistic training strategy designed to co-facilitate multi-task learning for detection and tracking. Specifically, we propose a Task-specific Hybrid Matching module for a weight-shared cross-attention-based decoder that matches the targets of track queries with multiple object queries to exploit promising candidates overlooked by the self-attention mechanism. To dynamically select optimal candidates for the one-to-many matching, we also design a Cost-based Query Filtering module controlled by model training status. Moreover, we introduce Instance-aware Contrastive Learning to break through the barrier of self-centric attention for track queries, effectively bridging the gap between detection and tracking. Extensive experiments demonstrate that SynCL consistently delivers improvements when integrated with the training stage of various query-based 3D MOT trackers. Without additional inference costs, SynCL improves the state-of-the-art PF-Track method by $+3.9\%$ AMOTA and $+2.0\%$ NDS on the nuScenes dataset.
- Abstract(参考訳): 既存のクエリベースの3Dビジュアルトラッカーは、トラッキング・バイ・アテンションパラダイムを介して検出とトラッキングを統合するが、これら2つのチキン・アンド・エッグタスクは、同じパラメータを共有する際に最適化上の困難に直面する。
これらの困難は、オブジェクトクエリの過剰重複とトラッククエリの自己中心的注意という、自己注意機構に固有の2つの制約が原因であることが判明した。
対照的に、自己注意機構の除去はトラッカーの回帰予測に最小限の影響を与えるだけでなく、より遅延した候補ボックスを生成する傾向がある。
これらの分析に基づいて,マルチタスク学習を協調して検出・追跡する新しいプラグ・アンド・プレイ・シナジスティック・トレーニング戦略であるSynCLを提案する。
具体的には、トラッククエリのターゲットと複数のオブジェクトクエリとを一致させる重み付きクロスアテンションベースのデコーダのためのタスク固有ハイブリッドマッチングモジュールを提案し、自己アテンション機構によって見落とされうる候補を活用する。
また,一対一マッチングの最適候補を動的に選択するために,モデルトレーニング状態によって制御されるコストベースのクエリフィルタリングモジュールを設計する。
さらに,探索クエリに対する自己中心的注意の障壁を突破し,検出と追跡のギャップを効果的に埋めるために,インスタンス対応のコントラスト学習を導入する。
大規模な実験では、SynCLがさまざまなクエリベースの3D MOTトラッカーのトレーニングステージと統合することで、継続的に改善が提供される。
追加の推論コストなしで、SynCLは最先端のPF-Trackメソッドを$+3.9\%$ AMOTAと$+2.0\%$ NDSで改善する。
関連論文リスト
- Multi-object Tracking by Detection and Query: an efficient end-to-end manner [23.926668750263488]
従来の検出によるトラッキングと、クエリによる新たなトラッキングだ。
本稿では,学習可能なアソシエータによって達成されるトラッキング・バイ・検出・クエリーのパラダイムを提案する。
トラッキング・バイ・クエリーモデルと比較すると、LAIDは特に訓練効率の高い競合追跡精度を達成している。
論文 参考訳(メタデータ) (2024-11-09T14:38:08Z) - ADA-Track++: End-to-End Multi-Camera 3D Multi-Object Tracking with Alternating Detection and Association [15.161640917854363]
多視点カメラによる3D MOTのための新しいエンドツーエンドフレームワークであるADA-Track++を紹介する。
エッジ拡張型クロスアテンションに基づく学習可能なデータアソシエーションモジュールを提案する。
我々は、この関連モジュールをDTRベースの3D検出器のデコーダ層に統合する。
論文 参考訳(メタデータ) (2024-05-14T19:02:33Z) - Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking [55.13878429987136]
そこで本研究では,異なる目標に対して,単発と複数発の特徴を共同で学習するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。
提案手法は,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-11-17T08:17:49Z) - You Only Need Two Detectors to Achieve Multi-Modal 3D Multi-Object Tracking [9.20064374262956]
提案手法は,2次元検出器と3次元検出器のみを用いて,ロバストなトラッキングを実現する。
多くの最先端のTBDベースのマルチモーダルトラッキング手法よりも正確であることが証明されている。
論文 参考訳(メタデータ) (2023-04-18T02:45:18Z) - 3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D
Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。
本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文 参考訳(メタデータ) (2022-11-01T20:59:38Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Unified Transformer Tracker for Object Tracking [58.65901124158068]
異なるシナリオにおけるトラッキング問題に1つのパラダイムで対処するために,UTT(Unified Transformer Tracker)を提案する。
SOT(Single Object Tracking)とMOT(Multiple Object Tracking)の両方を対象とするトラックトランスフォーマーを開発した。
論文 参考訳(メタデータ) (2022-03-29T01:38:49Z) - Distractor-Aware Fast Tracking via Dynamic Convolutions and MOT
Philosophy [63.91005999481061]
実用的長期トラッカーは、典型的には3つの重要な特性を含む。
効率的なモデル設計、効果的なグローバル再検出戦略、堅牢な気晴らし認識メカニズム。
動的畳み込み (d-convs) と多重オブジェクト追跡 (MOT) の哲学を用いて, 注意をそらした高速トラッキングを実現するための2タスクトラッキングフレームワーク(DMTrack)を提案する。
我々のトラッカーはLaSOT, OxUvA, TLP, VOT2018LT, VOT 2019LTベンチマークの最先端性能を実現し, リアルタイム3倍高速に動作させる。
論文 参考訳(メタデータ) (2021-04-25T00:59:53Z) - DEFT: Detection Embeddings for Tracking [3.326320568999945]
我々は,DEFT と呼ばれる効率的な関節検出・追跡モデルを提案する。
提案手法は,外見に基づくオブジェクトマッチングネットワークと,下層のオブジェクト検出ネットワークとの協調学習に依存している。
DEFTは2Dオンライントラッキングリーダーボードのトップメソッドに匹敵する精度とスピードを持っている。
論文 参考訳(メタデータ) (2021-02-03T20:00:44Z) - Chained-Tracker: Chaining Paired Attentive Regression Results for
End-to-End Joint Multiple-Object Detection and Tracking [102.31092931373232]
そこで我々は,3つのサブタスク全てをエンド・ツー・エンドのソリューションに統合する簡単なオンラインモデルである Chained-Tracker (CTracker) を提案する。
鎖状構造と対の注意的回帰という2つの大きな特徴は、CTrackerをシンプルに、速く、効果的にする。
論文 参考訳(メタデータ) (2020-07-29T02:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。