論文の概要: MCTR: Multi Camera Tracking Transformer
- arxiv url: http://arxiv.org/abs/2408.13243v2
- Date: Wed, 11 Sep 2024 16:41:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 20:12:08.937051
- Title: MCTR: Multi Camera Tracking Transformer
- Title(参考訳): MCTR:マルチカメラトラッキングトランス
- Authors: Alexandru Niculescu-Mizil, Deep Patel, Iain Melvin,
- Abstract要約: Multi-Camera Tracking tRansformer (MCTR)は、マルチオブジェクト検出と複数のカメラ間のトラッキングに適した、エンドツーエンドのアプローチである。
MCTRは、Detector TRansformer (DETR)のようなエンドツーエンドの検出器を利用して、カメラビューごとに独立して検出および検出埋め込みを生成する。
このフレームワークは、追跡されたオブジェクトに関するグローバル情報を付加する一連のトラック埋め込みを維持し、ビュー固有の検出埋め込みからローカル情報を統合することで、各フレームでそれらを更新する。
- 参考スコア(独自算出の注目度): 45.66952089591361
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multi-camera tracking plays a pivotal role in various real-world applications. While end-to-end methods have gained significant interest in single-camera tracking, multi-camera tracking remains predominantly reliant on heuristic techniques. In response to this gap, this paper introduces Multi-Camera Tracking tRansformer (MCTR), a novel end-to-end approach tailored for multi-object detection and tracking across multiple cameras with overlapping fields of view. MCTR leverages end-to-end detectors like DEtector TRansformer (DETR) to produce detections and detection embeddings independently for each camera view. The framework maintains set of track embeddings that encaplusate global information about the tracked objects, and updates them at every frame by integrating the local information from the view-specific detection embeddings. The track embeddings are probabilistically associated with detections in every camera view and frame to generate consistent object tracks. The soft probabilistic association facilitates the design of differentiable losses that enable end-to-end training of the entire system. To validate our approach, we conduct experiments on MMPTrack and AI City Challenge, two recently introduced large-scale multi-camera multi-object tracking datasets.
- Abstract(参考訳): マルチカメラトラッキングは、様々な現実世界のアプリケーションにおいて重要な役割を果たす。
エンドツーエンドの手法はシングルカメラトラッキングに大きな関心を集めているが、マルチカメラトラッキングはヒューリスティックな手法に大きく依存している。
このギャップに対応するために,マルチカメラ・トラッキング・tRansformer (MCTR) を提案する。
MCTRは、Detector TRansformer (DETR)のようなエンドツーエンドの検出器を利用して、カメラビューごとに独立して検出および検出埋め込みを生成する。
このフレームワークは、追跡されたオブジェクトに関するグローバル情報を付加する一連のトラック埋め込みを維持し、ビュー固有の検出埋め込みからローカル情報を統合することで、各フレームでそれらを更新する。
トラック埋め込みは、一貫したオブジェクトトラックを生成するために、すべてのカメラビューとフレームにおける検出と確率的に関連付けられている。
ソフト確率的アソシエーションは、システム全体のエンドツーエンドのトレーニングを可能にする差別化可能な損失の設計を促進する。
我々のアプローチを検証するために、MMPTrackとAI City Challengeという2つの大規模マルチカメラマルチオブジェクト追跡データセットを最近導入した実験を行った。
関連論文リスト
- RockTrack: A 3D Robust Multi-Camera-Ken Multi-Object Tracking Framework [28.359633046753228]
マルチカメラ検出器のための3次元MOT法であるRockTrackを提案する。
RockTrackには、信頼性の高い前処理モジュールが組み込まれており、信頼性の高い動きと画像の観察を抽出する。
RockTrackは、59.1%のAMOTAを持つnuScenesビジョンのみのトラッキングリーダーボードで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-09-18T07:08:08Z) - MTMMC: A Large-Scale Real-World Multi-Modal Camera Tracking Benchmark [63.878793340338035]
マルチターゲットマルチカメラトラッキングは、複数のカメラからのビデオストリームを使用して個人を特定し、追跡する重要なタスクである。
このタスクの既存のデータセットは、制御されたカメラネットワーク設定内で合成または人工的に構築される。
我々は16台のマルチモーダルカメラで2つの異なる環境でキャプチャされた長いビデオシーケンスを含む実世界の大規模データセットであるMTMMCを紹介する。
論文 参考訳(メタデータ) (2024-03-29T15:08:37Z) - Learning Online Policies for Person Tracking in Multi-View Environments [4.62316736194615]
MVSparseは、複数の同期カメラにまたがる協調的多人数追跡のための新しいフレームワークである。
MVSparseシステムは、エッジサーバベースのモデルと分散軽量強化学習(RL)エージェントを組み合わせた、慎重にオーケストレーションされたパイプラインで構成されている。
私たちの貢献には、マルチカメラの歩行者追跡データセットの実証分析、マルチカメラの開発、マルチパーソナリティ検出パイプラインの開発、MVSparseの実装などが含まれています。
論文 参考訳(メタデータ) (2023-12-26T02:57:11Z) - Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking [55.13878429987136]
そこで本研究では,異なる目標に対して,単発と複数発の特徴を共同で学習するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。
提案手法は,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-11-17T08:17:49Z) - DIVOTrack: A Novel Dataset and Baseline Method for Cross-View
Multi-Object Tracking in DIVerse Open Scenes [74.64897845999677]
歩行者が密集したDIVerse Openのシーンを対象とした,新しいクロスビュー多目的追跡データセットを提案する。
私たちのDIVOTrackには15の異なるシナリオと953のクロスビュートラックがあります。
さらに,クロスモット(CrossMOT)という統合型共同検出・クロスビュートラッキングフレームワークを用いた新しいベースラインクロスビュートラッキング手法を提案する。
論文 参考訳(メタデータ) (2023-02-15T14:10:42Z) - Multi-Camera Multi-Object Tracking on the Move via Single-Stage Global
Association Approach [23.960847268459293]
この研究は、複数カメラから1つ以上の検出を追跡対象に関連付けるための、新しいシングルステージグローバルアソシエーション追跡手法を導入する。
また,本モデルでは,nuScenes検出課題において,標準的な視覚に基づく3次元物体検出器の検出精度も向上した。
論文 参考訳(メタデータ) (2022-11-17T17:03:24Z) - Know Your Surroundings: Panoramic Multi-Object Tracking by Multimodality
Collaboration [56.01625477187448]
MMPAT(MultiModality PAnoramic Multi-object Tracking framework)を提案する。
2次元パノラマ画像と3次元点雲を入力とし、マルチモーダルデータを用いて目標軌道を推定する。
提案手法は,検出タスクと追跡タスクの両方においてMMPATが最高性能を達成するJRDBデータセット上で評価する。
論文 参考訳(メタデータ) (2021-05-31T03:16:38Z) - TrackFormer: Multi-Object Tracking with Transformers [92.25832593088421]
TrackFormerはエンコーダデコーダトランスフォーマーアーキテクチャに基づくエンドツーエンドのマルチオブジェクトトラッキングおよびセグメンテーションモデルです。
新しいトラッククエリはDETRオブジェクト検出器によって生成され、時間とともに対応するオブジェクトの位置を埋め込む。
trackformerは新しいトラッキング・バイ・アテンションパラダイムでフレーム間のシームレスなデータ関連付けを実現する。
論文 参考訳(メタデータ) (2021-01-07T18:59:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。