Fugu-MT 論文翻訳(概要): HSTrack: Bootstrap End-to-End Multi-Camera 3D Multi-object Tracking with Hybrid Supervision

論文の概要: HSTrack: Bootstrap End-to-End Multi-Camera 3D Multi-object Tracking with Hybrid Supervision

arxiv url: http://arxiv.org/abs/2411.06780v1
Date: Mon, 11 Nov 2024 08:18:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:46.384027
Title: HSTrack: Bootstrap End-to-End Multi-Camera 3D Multi-object Tracking with Hybrid Supervision
Title（参考訳）: HSTrack:ハイブリッドスーパービジョンを用いたマルチカメラ3Dマルチオブジェクトトラッキング
Authors: Shubo Lin, Yutong Kou, Bing Li, Weiming Hu, Jin Gao,
Abstract要約: カメラベースの3Dマルチオブジェクトトラッキング(MOT)では、一般的な手法はトラッキング・バイ・クエリー・プロパゲーションのパラダイムに従っている。本稿では,HSTrackを提案する。HSTrackは,マルチタスク学習を協調して検出・追跡する新しいプラグイン・アンド・プレイ方式である。
参考スコア（独自算出の注目度）: 34.7347336548199
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In camera-based 3D multi-object tracking (MOT), the prevailing methods follow the tracking-by-query-propagation paradigm, which employs track queries to manage the lifecycle of identity-consistent tracklets while object queries handle the detection of new-born tracklets. However, this intertwined paradigm leads the inter-temporal tracking task and the single-frame detection task utilize the same model parameters, complicating training optimization. Drawing inspiration from studies on the roles of attention components in transformer-based decoders, we identify that the dispersing effect of self-attention necessitates object queries to match with new-born tracklets. This matching strategy diverges from the detection pre-training phase, where object queries align with all ground-truth targets, resulting in insufficient supervision signals. To address these issues, we present HSTrack, a novel plug-and-play method designed to co-facilitate multi-task learning for detection and tracking. HSTrack constructs a parallel weight-share decoder devoid of self-attention layers, circumventing competition between different types of queries. Considering the characteristics of cross-attention layer and distinct query types, our parallel decoder adopt one-to-one and one-to-many label assignment strategies for track queries and object queries, respectively. Leveraging the shared architecture, HSTrack further improve trackers for spatio-temporal modeling and quality candidates generation. Extensive experiments demonstrate that HSTrack consistently delivers improvements when integrated with various query-based 3D MOT trackers. For example, HSTrack improves the state-of-the-art PF-Track method by $+2.3\%$ AMOTA and $+1.7\%$ mAP on the nuScenes dataset.
Abstract（参考訳）: カメラベースの3Dマルチオブジェクトトラッキング(MOT)では、オブジェクトクエリが新しく生まれたトラックレットの検出を処理する間、トラッククエリを使用してアイデンティティ一貫性のあるトラックレットのライフサイクルを管理する、トラッキング・バイ・クエリー・プロパゲーションのパラダイムが一般的である。しかし、この相互に絡み合ったパラダイムは、時間間追跡タスクを導き、単一フレーム検出タスクは同じモデルパラメータを使用し、トレーニングの最適化を複雑にする。変圧器をベースとしたデコーダにおける注目成分の役割に関する研究から着想を得た結果,自己注意による分散効果は,新生トラックレットにマッチするオブジェクトクエリを必要とすることが判明した。このマッチング戦略は、検出事前学習フェーズから分岐し、オブジェクトクエリがすべての接地目標と整合し、監視信号が不十分になる。これらの問題に対処するために,HSTrackを提案する。HSTrackは,マルチタスク学習を協調して検出・追跡する新しいプラグイン・アンド・プレイ方式である。 HSTrackは自己アテンション層を持たない並列重み共有デコーダを構築し、異なるタイプのクエリ間の競合を回避する。並列デコーダは,それぞれ1対1と1対1のラベル代入戦略を採用し,クエリとオブジェクトクエリをトラックする。共有アーキテクチャを活用することで、HSTrackは時空間モデリングと品質候補生成のためのトラッカーをさらに改善する。大規模な実験では、HSTrackが様々なクエリベースの3D MOTトラッカーと統合された場合、一貫して改善されていることが示されている。例えば、HSTrackは最先端のPF-Trackメソッドを$+2.3\%$AMOTAと$+1.7\%$mAPで改善している。

関連論文リスト

CAMELTrack: Context-Aware Multi-cue ExpLoitation for Online Multi-Object Tracking [68.24998698508344]
CAMELはコンテキスト対応型マルチキューExpLoitationのための新しいアソシエイトモジュールである。エンド・ツー・エンドの検知・バイ・トラック方式とは異なり,本手法は軽量かつ高速にトレーニングが可能であり,外部のオフ・ザ・シェルフモデルを活用することができる。提案するオンライントラッキングパイプラインであるCAMELTrackは,複数のトラッキングベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-05-02T13:26:23Z)
Multi-object Tracking by Detection and Query: an efficient end-to-end manner [23.926668750263488]
従来の検出によるトラッキングと、クエリによる新たなトラッキングだ。本稿では,学習可能なアソシエータによって達成されるトラッキング・バイ・検出・クエリーのパラダイムを提案する。トラッキング・バイ・クエリーモデルと比較すると、LAIDは特に訓練効率の高い競合追跡精度を達成している。
論文参考訳（メタデータ） (2024-11-09T14:38:08Z)
Lost and Found: Overcoming Detector Failures in Online Multi-Object Tracking [15.533652456081374]
マルチオブジェクト追跡(MOT)は、時間とともに複数のオブジェクトのアイデンティティと位置を正確に推定する。現代の検出器は、あるフレーム内のいくつかのオブジェクトを見逃すことがあるため、トラッカーは早めに追跡をやめる。オンラインTbDシステムと互換性のある汎用フレームワークであるBUSCAを提案する。
論文参考訳（メタデータ） (2024-07-14T10:45:12Z)
ADA-Track: End-to-End Multi-Camera 3D Multi-Object Tracking with Alternating Detection and Association [15.161640917854363]
多視点カメラによる3D MOTのための新しいエンドツーエンドフレームワークであるADA-Trackを紹介する。エッジ拡張型クロスアテンションに基づく学習可能なデータアソシエーションモジュールを提案する。我々は、この関連モジュールをDTRベースの3D検出器のデコーダ層に統合する。
論文参考訳（メタデータ） (2024-05-14T19:02:33Z)
Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking [55.13878429987136]
そこで本研究では,異なる目標に対して,単発と複数発の特徴を共同で学習するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。提案手法は,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現している。
論文参考訳（メタデータ） (2023-11-17T08:17:49Z)
Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文参考訳（メタデータ） (2023-08-27T13:17:34Z)
S$^3$Track: Self-supervised Tracking with Soft Assignment Flow [45.77333923477176]
ビデオレベルのアソシエーションラベルを使わずに、自己監督型複数物体追跡について検討する。オブジェクトアソシエーションのための微分可能なソフトオブジェクト割り当てを提案する。提案手法は,KITTI,nuScenes,Argoverseのデータセットを用いて評価する。
論文参考訳（メタデータ） (2023-05-17T06:25:40Z)
Unified Sequence-to-Sequence Learning for Single- and Multi-Modal Visual Object Tracking [64.28025685503376]
SeqTrackは、ビジュアルトラッキングをシーケンス生成タスクとしてキャストし、オブジェクト境界ボックスを自動回帰的に予測する。 SeqTrackv2は補助モダリティのための統一インターフェースとタスクを指定するためのタスクプロンプトトークンのセットを統合している。このシーケンス学習パラダイムは、トラッキングフレームワークを単純化するだけでなく、14の挑戦的なベンチマークで優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2023-04-27T17:56:29Z)
You Only Need Two Detectors to Achieve Multi-Modal 3D Multi-Object Tracking [9.20064374262956]
提案手法は,2次元検出器と3次元検出器のみを用いて,ロバストなトラッキングを実現する。多くの最先端のTBDベースのマルチモーダルトラッキング手法よりも正確であることが証明されている。
論文参考訳（メタデータ） (2023-04-18T02:45:18Z)
DIVOTrack: A Novel Dataset and Baseline Method for Cross-View Multi-Object Tracking in DIVerse Open Scenes [74.64897845999677]
歩行者が密集したDIVerse Openのシーンを対象とした,新しいクロスビュー多目的追跡データセットを提案する。私たちのDIVOTrackには15の異なるシナリオと953のクロスビュートラックがあります。さらに,クロスモット(CrossMOT)という統合型共同検出・クロスビュートラッキングフレームワークを用いた新しいベースラインクロスビュートラッキング手法を提案する。
論文参考訳（メタデータ） (2023-02-15T14:10:42Z)
3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文参考訳（メタデータ） (2022-11-01T20:59:38Z)
End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文参考訳（メタデータ） (2022-10-26T10:19:37Z)
InterTrack: Interaction Transformer for 3D Multi-Object Tracking [9.283656931246645]
3Dマルチオブジェクトトラッキング(MOT)は、自動運転車にとって重要な問題である。提案手法であるInterTrackは,データアソシエーションのための識別対象表現を生成する。我々はnuScenes 3D MOTベンチマークのアプローチを検証する。
論文参考訳（メタデータ） (2022-08-17T03:24:36Z)
Transformer-based assignment decision network for multiple object tracking [2.2920634931825803]
本稿では,データアソシエーションに取り組むトランスフォーマーベースのアサインメント決定ネットワーク(TADN)について,推論中に明示的な最適化を必要とせずに紹介する。提案手法は,トラッカーとしての単純な性質にもかかわらず,ほとんどの評価指標において高い性能を示す。
論文参考訳（メタデータ） (2022-08-06T19:47:32Z)
Unified Transformer Tracker for Object Tracking [58.65901124158068]
異なるシナリオにおけるトラッキング問題に1つのパラダイムで対処するために,UTT(Unified Transformer Tracker)を提案する。 SOT(Single Object Tracking)とMOT(Multiple Object Tracking)の両方を対象とするトラックトランスフォーマーを開発した。
論文参考訳（メタデータ） (2022-03-29T01:38:49Z)
Distractor-Aware Fast Tracking via Dynamic Convolutions and MOT Philosophy [63.91005999481061]
実用的長期トラッカーは、典型的には3つの重要な特性を含む。効率的なモデル設計、効果的なグローバル再検出戦略、堅牢な気晴らし認識メカニズム。動的畳み込み (d-convs) と多重オブジェクト追跡 (MOT) の哲学を用いて, 注意をそらした高速トラッキングを実現するための2タスクトラッキングフレームワーク(DMTrack)を提案する。我々のトラッカーはLaSOT, OxUvA, TLP, VOT2018LT, VOT 2019LTベンチマークの最先端性能を実現し, リアルタイム3倍高速に動作させる。
論文参考訳（メタデータ） (2021-04-25T00:59:53Z)
Track to Detect and Segment: An Online Multi-Object Tracker [81.15608245513208]
TraDeSは、エンドツーエンドの検出を支援するために追跡の手がかりを利用するオンライン共同検出および追跡モデルです。 TraDeSは、以前のオブジェクトの機能を伝播するために使用されるコストボリュームでオブジェクト追跡オフセットを推測します。
論文参考訳（メタデータ） (2021-03-16T02:34:06Z)
DEFT: Detection Embeddings for Tracking [3.326320568999945]
我々は,DEFT と呼ばれる効率的な関節検出・追跡モデルを提案する。提案手法は,外見に基づくオブジェクトマッチングネットワークと,下層のオブジェクト検出ネットワークとの協調学習に依存している。 DEFTは2Dオンライントラッキングリーダーボードのトップメソッドに匹敵する精度とスピードを持っている。
論文参考訳（メタデータ） (2021-02-03T20:00:44Z)
TrackFormer: Multi-Object Tracking with Transformers [92.25832593088421]
TrackFormerはエンコーダデコーダトランスフォーマーアーキテクチャに基づくエンドツーエンドのマルチオブジェクトトラッキングおよびセグメンテーションモデルです。新しいトラッククエリはDETRオブジェクト検出器によって生成され、時間とともに対応するオブジェクトの位置を埋め込む。 trackformerは新しいトラッキング・バイ・アテンションパラダイムでフレーム間のシームレスなデータ関連付けを実現する。
論文参考訳（メタデータ） (2021-01-07T18:59:29Z)
Chained-Tracker: Chaining Paired Attentive Regression Results for End-to-End Joint Multiple-Object Detection and Tracking [102.31092931373232]
そこで我々は,3つのサブタスク全てをエンド・ツー・エンドのソリューションに統合する簡単なオンラインモデルである Chained-Tracker (CTracker) を提案する。鎖状構造と対の注意的回帰という2つの大きな特徴は、CTrackerをシンプルに、速く、効果的にする。
論文参考訳（メタデータ） (2020-07-29T02:38:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。