Fugu-MT 論文翻訳(概要): SynCL: A Synergistic Training Strategy with Instance-Aware Contrastive Learning for End-to-End Multi-Camera 3D Tracking

論文の概要: SynCL: A Synergistic Training Strategy with Instance-Aware Contrastive Learning for End-to-End Multi-Camera 3D Tracking

arxiv url: http://arxiv.org/abs/2411.06780v2
Date: Sat, 25 Jan 2025 08:52:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-28 15:53:02.396324
Title: SynCL: A Synergistic Training Strategy with Instance-Aware Contrastive Learning for End-to-End Multi-Camera 3D Tracking
Title（参考訳）: SynCL: エンド・ツー・エンドのマルチカメラ3Dトラッキングのためのインスタンス対応コントラスト学習を用いた総合的学習戦略
Authors: Shubo Lin, Yutong Kou, Zirui Wu, Shaoru Wang, Bing Li, Weiming Hu, Jin Gao,
Abstract要約: SynCLは、検出と追跡のためのマルチタスク学習を共用するために設計された、新しいプラグアンドプレイのシナジスティックトレーニング戦略である。各種クエリベースの3D MOTトラッカーのトレーニング段階と統合した場合,SynCLは一貫して改善されていることを示す。追加の推論コストなしで、SynCLは最先端のPF-Trackメソッドを$+3.9%のAMOTAと$+2.0%のNDSで改善した。
参考スコア（独自算出の注目度）: 34.90147791481045
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While existing query-based 3D end-to-end visual trackers integrate detection and tracking via the tracking-by-attention paradigm, these two chicken-and-egg tasks encounter optimization difficulties when sharing the same parameters. Our findings reveal that these difficulties arise due to two inherent constraints on the self-attention mechanism, i.e., over-deduplication for object queries and self-centric attention for track queries. In contrast, removing self-attention mechanism not only minimally impacts regression predictions of the tracker, but also tends to generate more latent candidate boxes. Based on these analyses, we present SynCL, a novel plug-and-play synergistic training strategy designed to co-facilitate multi-task learning for detection and tracking. Specifically, we propose a Task-specific Hybrid Matching module for a weight-shared cross-attention-based decoder that matches the targets of track queries with multiple object queries to exploit promising candidates overlooked by the self-attention mechanism. To dynamically select optimal candidates for the one-to-many matching, we also design a Cost-based Query Filtering module controlled by model training status. Moreover, we introduce Instance-aware Contrastive Learning to break through the barrier of self-centric attention for track queries, effectively bridging the gap between detection and tracking. Extensive experiments demonstrate that SynCL consistently delivers improvements when integrated with the training stage of various query-based 3D MOT trackers. Without additional inference costs, SynCL improves the state-of-the-art PF-Track method by $+3.9\%$ AMOTA and $+2.0\%$ NDS on the nuScenes dataset.
Abstract（参考訳）: 既存のクエリベースの3Dビジュアルトラッカーは、トラッキング・バイ・アテンションパラダイムを介して検出とトラッキングを統合するが、これら2つのチキン・アンド・エッグタスクは、同じパラメータを共有する際に最適化上の困難に直面する。これらの困難は、オブジェクトクエリの過剰重複とトラッククエリの自己中心的注意という、自己注意機構に固有の2つの制約が原因であることが判明した。対照的に、自己注意機構の除去はトラッカーの回帰予測に最小限の影響を与えるだけでなく、より遅延した候補ボックスを生成する傾向がある。これらの分析に基づいて,マルチタスク学習を協調して検出・追跡する新しいプラグ・アンド・プレイ・シナジスティック・トレーニング戦略であるSynCLを提案する。具体的には、トラッククエリのターゲットと複数のオブジェクトクエリとを一致させる重み付きクロスアテンションベースのデコーダのためのタスク固有ハイブリッドマッチングモジュールを提案し、自己アテンション機構によって見落とされうる候補を活用する。また,一対一マッチングの最適候補を動的に選択するために,モデルトレーニング状態によって制御されるコストベースのクエリフィルタリングモジュールを設計する。さらに,探索クエリに対する自己中心的注意の障壁を突破し,検出と追跡のギャップを効果的に埋めるために,インスタンス対応のコントラスト学習を導入する。大規模な実験では、SynCLがさまざまなクエリベースの3D MOTトラッカーのトレーニングステージと統合することで、継続的に改善が提供される。追加の推論コストなしで、SynCLは最先端のPF-Trackメソッドを$+3.9\%$ AMOTAと$+2.0\%$ NDSで改善する。

関連論文リスト

Multi-object Tracking by Detection and Query: an efficient end-to-end manner [23.926668750263488]
従来の検出によるトラッキングと、クエリによる新たなトラッキングだ。本稿では,学習可能なアソシエータによって達成されるトラッキング・バイ・検出・クエリーのパラダイムを提案する。トラッキング・バイ・クエリーモデルと比較すると、LAIDは特に訓練効率の高い競合追跡精度を達成している。
論文参考訳（メタデータ） (2024-11-09T14:38:08Z)
Lost and Found: Overcoming Detector Failures in Online Multi-Object Tracking [15.533652456081374]
マルチオブジェクト追跡(MOT)は、時間とともに複数のオブジェクトのアイデンティティと位置を正確に推定する。現代の検出器は、あるフレーム内のいくつかのオブジェクトを見逃すことがあるため、トラッカーは早めに追跡をやめる。オンラインTbDシステムと互換性のある汎用フレームワークであるBUSCAを提案する。
論文参考訳（メタデータ） (2024-07-14T10:45:12Z)
ADA-Track: End-to-End Multi-Camera 3D Multi-Object Tracking with Alternating Detection and Association [15.161640917854363]
多視点カメラによる3D MOTのための新しいエンドツーエンドフレームワークであるADA-Trackを紹介する。エッジ拡張型クロスアテンションに基づく学習可能なデータアソシエーションモジュールを提案する。我々は、この関連モジュールをDTRベースの3D検出器のデコーダ層に統合する。
論文参考訳（メタデータ） (2024-05-14T19:02:33Z)
Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking [55.13878429987136]
そこで本研究では,異なる目標に対して,単発と複数発の特徴を共同で学習するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。提案手法は,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現している。
論文参考訳（メタデータ） (2023-11-17T08:17:49Z)
Unified Sequence-to-Sequence Learning for Single- and Multi-Modal Visual Object Tracking [64.28025685503376]
SeqTrackは、ビジュアルトラッキングをシーケンス生成タスクとしてキャストし、オブジェクト境界ボックスを自動回帰的に予測する。 SeqTrackv2は補助モダリティのための統一インターフェースとタスクを指定するためのタスクプロンプトトークンのセットを統合している。このシーケンス学習パラダイムは、トラッキングフレームワークを単純化するだけでなく、14の挑戦的なベンチマークで優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2023-04-27T17:56:29Z)
You Only Need Two Detectors to Achieve Multi-Modal 3D Multi-Object Tracking [9.20064374262956]
提案手法は,2次元検出器と3次元検出器のみを用いて,ロバストなトラッキングを実現する。多くの最先端のTBDベースのマルチモーダルトラッキング手法よりも正確であることが証明されている。
論文参考訳（メタデータ） (2023-04-18T02:45:18Z)
DIVOTrack: A Novel Dataset and Baseline Method for Cross-View Multi-Object Tracking in DIVerse Open Scenes [74.64897845999677]
歩行者が密集したDIVerse Openのシーンを対象とした,新しいクロスビュー多目的追跡データセットを提案する。私たちのDIVOTrackには15の異なるシナリオと953のクロスビュートラックがあります。さらに,クロスモット(CrossMOT)という統合型共同検出・クロスビュートラッキングフレームワークを用いた新しいベースラインクロスビュートラッキング手法を提案する。
論文参考訳（メタデータ） (2023-02-15T14:10:42Z)
3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文参考訳（メタデータ） (2022-11-01T20:59:38Z)
End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文参考訳（メタデータ） (2022-10-26T10:19:37Z)
InterTrack: Interaction Transformer for 3D Multi-Object Tracking [9.283656931246645]
3Dマルチオブジェクトトラッキング(MOT)は、自動運転車にとって重要な問題である。提案手法であるInterTrackは,データアソシエーションのための識別対象表現を生成する。我々はnuScenes 3D MOTベンチマークのアプローチを検証する。
論文参考訳（メタデータ） (2022-08-17T03:24:36Z)
Unified Transformer Tracker for Object Tracking [58.65901124158068]
異なるシナリオにおけるトラッキング問題に1つのパラダイムで対処するために,UTT(Unified Transformer Tracker)を提案する。 SOT(Single Object Tracking)とMOT(Multiple Object Tracking)の両方を対象とするトラックトランスフォーマーを開発した。
論文参考訳（メタデータ） (2022-03-29T01:38:49Z)
Distractor-Aware Fast Tracking via Dynamic Convolutions and MOT Philosophy [63.91005999481061]
実用的長期トラッカーは、典型的には3つの重要な特性を含む。効率的なモデル設計、効果的なグローバル再検出戦略、堅牢な気晴らし認識メカニズム。動的畳み込み (d-convs) と多重オブジェクト追跡 (MOT) の哲学を用いて, 注意をそらした高速トラッキングを実現するための2タスクトラッキングフレームワーク(DMTrack)を提案する。我々のトラッカーはLaSOT, OxUvA, TLP, VOT2018LT, VOT 2019LTベンチマークの最先端性能を実現し, リアルタイム3倍高速に動作させる。
論文参考訳（メタデータ） (2021-04-25T00:59:53Z)
Track to Detect and Segment: An Online Multi-Object Tracker [81.15608245513208]
TraDeSは、エンドツーエンドの検出を支援するために追跡の手がかりを利用するオンライン共同検出および追跡モデルです。 TraDeSは、以前のオブジェクトの機能を伝播するために使用されるコストボリュームでオブジェクト追跡オフセットを推測します。
論文参考訳（メタデータ） (2021-03-16T02:34:06Z)
DEFT: Detection Embeddings for Tracking [3.326320568999945]
我々は,DEFT と呼ばれる効率的な関節検出・追跡モデルを提案する。提案手法は,外見に基づくオブジェクトマッチングネットワークと,下層のオブジェクト検出ネットワークとの協調学習に依存している。 DEFTは2Dオンライントラッキングリーダーボードのトップメソッドに匹敵する精度とスピードを持っている。
論文参考訳（メタデータ） (2021-02-03T20:00:44Z)
TrackFormer: Multi-Object Tracking with Transformers [92.25832593088421]
TrackFormerはエンコーダデコーダトランスフォーマーアーキテクチャに基づくエンドツーエンドのマルチオブジェクトトラッキングおよびセグメンテーションモデルです。新しいトラッククエリはDETRオブジェクト検出器によって生成され、時間とともに対応するオブジェクトの位置を埋め込む。 trackformerは新しいトラッキング・バイ・アテンションパラダイムでフレーム間のシームレスなデータ関連付けを実現する。
論文参考訳（メタデータ） (2021-01-07T18:59:29Z)
Chained-Tracker: Chaining Paired Attentive Regression Results for End-to-End Joint Multiple-Object Detection and Tracking [102.31092931373232]
そこで我々は,3つのサブタスク全てをエンド・ツー・エンドのソリューションに統合する簡単なオンラインモデルである Chained-Tracker (CTracker) を提案する。鎖状構造と対の注意的回帰という2つの大きな特徴は、CTrackerをシンプルに、速く、効果的にする。
論文参考訳（メタデータ） (2020-07-29T02:38:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。