論文の概要: MUTR3D: A Multi-camera Tracking Framework via 3D-to-2D Queries
- arxiv url: http://arxiv.org/abs/2205.00613v1
- Date: Mon, 2 May 2022 01:45:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 13:24:03.555733
- Title: MUTR3D: A Multi-camera Tracking Framework via 3D-to-2D Queries
- Title(参考訳): MUTR3D:3D-to-2Dクエリによるマルチカメラ追跡フレームワーク
- Authors: Tianyuan Zhang, Xuanyao Chen, Yue Wang, Yilun Wang, Hang Zhao
- Abstract要約: 複数のカメラからの3Dトラッキングは、ビジョンベースの自動運転システムにおいて重要な要素である。
我々はMUTR3Dと呼ばれるエンドツーエンドのtextbfMUlti-camera textbfTRackingフレームワークを提案する。
MUTR3Dは、オブジェクトの空間的および外観的類似性に明示的に依存していない。
nuScenesデータセット上で5.3 AMOTAによる最先端メソッドよりも優れています。
- 参考スコア(独自算出の注目度): 18.70932813595532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate and consistent 3D tracking from multiple cameras is a key component
in a vision-based autonomous driving system. It involves modeling 3D dynamic
objects in complex scenes across multiple cameras. This problem is inherently
challenging due to depth estimation, visual occlusions, appearance ambiguity,
etc. Moreover, objects are not consistently associated across time and cameras.
To address that, we propose an end-to-end \textbf{MU}lti-camera
\textbf{TR}acking framework called MUTR3D. In contrast to prior works, MUTR3D
does not explicitly rely on the spatial and appearance similarity of objects.
Instead, our method introduces \textit{3D track query} to model spatial and
appearance coherent track for each object that appears in multiple cameras and
multiple frames. We use camera transformations to link 3D trackers with their
observations in 2D images. Each tracker is further refined according to the
features that are obtained from camera images. MUTR3D uses a set-to-set loss to
measure the difference between the predicted tracking results and the ground
truths. Therefore, it does not require any post-processing such as non-maximum
suppression and/or bounding box association. MUTR3D outperforms
state-of-the-art methods by 5.3 AMOTA on the nuScenes dataset. Code is
available at: \url{https://github.com/a1600012888/MUTR3D}.
- Abstract(参考訳): 複数のカメラからの正確な3Dトラッキングは、視覚ベースの自動運転システムにおいて重要な要素である。
複雑なシーンで複数のカメラで3d動的オブジェクトをモデリングする。
この問題は、深さ推定、視覚的閉塞、外見の曖昧さなどによって本質的に困難である。
さらに、オブジェクトは時間とカメラ間で一貫して関連付けられません。
そこで我々は, MUTR3D と呼ばれるエンドツーエンドの textbf{MU}lti-camera \textbf{TR}acking フレームワークを提案する。
以前の作品とは対照的に、mutr3dはオブジェクトの空間的および外観的類似性に明示的に依存していない。
代わりに、複数のカメラと複数のフレームに現れる各オブジェクトの空間的および外観的コヒーレントトラックをモデル化する \textit{3d track query} を導入する。
カメラ変換を用いて3Dトラッカーを2D画像に関連づける。
各トラッカーは、カメラ画像から得られた特徴に応じてさらに洗練される。
MUTR3Dは、予測された追跡結果と地上の真実との差を測定するために、セットツーセットの損失を使用する。
したがって、非最大抑圧や/またはバウンディングボックスアソシエーションのような後処理は不要である。
MUTR3DはnuScenesデータセット上で5.3 AMOTAによる最先端の手法より優れている。
コードは \url{https://github.com/a1600012888/mutr3d} で利用可能である。
関連論文リスト
- Tracking Objects with 3D Representation from Videos [57.641129788552675]
P3DTrackと呼ばれる新しい2次元多目的追跡パラダイムを提案する。
モノクロビデオにおける擬似3Dオブジェクトラベルからの3次元オブジェクト表現学習により,P3DTrackと呼ばれる新しい2次元MOTパラダイムを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:58:45Z) - Tracking by 3D Model Estimation of Unknown Objects in Videos [122.56499878291916]
この表現は限定的であり、代わりに明示的なオブジェクト表現を用いて2次元追跡をガイドし改善することを提案する。
我々の表現は、全てのビデオフレームのオブジェクト上の全ての3Dポイント間の複雑な長期密度対応問題に取り組む。
提案手法は, 最適3次元形状, テクスチャ, 6DoFのポーズを推定するために, 新たな損失関数を最小化する。
論文 参考訳(メタデータ) (2023-04-13T11:32:36Z) - MMPTRACK: Large-scale Densely Annotated Multi-camera Multiple People
Tracking Benchmark [40.363608495563305]
自動アノテーションシステムの助けを借りて,5つの異なる環境において,大規模にラベル付けされたマルチカメラ追跡データセットを提供する。
3Dトラッキングの結果は、カメラパラメータを用いて各RGBカメラビューに投影され、2Dトラッキング結果が生成される。
このデータセットは、乱雑で混み合った環境で、より信頼性の高いマルチカメラ、マルチオブジェクトトラッキングシステムのベンチマークを提供する。
論文 参考訳(メタデータ) (2021-11-30T06:29:14Z) - Tracking People with 3D Representations [78.97070307547283]
ビデオ中の複数の人物を追跡する新しい手法を提案する。
従来の2次元表現を用いたアプローチとは違って,3次元空間における人物の3次元表現を用いる。
これらの環境下での3次元表現は2次元表現よりも効果的であることがわかった。
論文 参考訳(メタデータ) (2021-11-15T16:15:21Z) - DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries [43.02373021724797]
マルチカメラ3Dオブジェクト検出のためのフレームワークを提案する。
本手法は3次元空間での予測を直接操作する。
我々はnuScenes自動運転ベンチマークで最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-10-13T17:59:35Z) - MonoCInIS: Camera Independent Monocular 3D Object Detection using
Instance Segmentation [55.96577490779591]
大規模で異質なトレーニングデータを活用するためには、"カメラ独立"の度合いが必要である。
大規模で異質なトレーニングデータの恩恵を受けるためには、より多くのデータがパフォーマンスを自動で保証するのではなく、"カメラ独立"の度合いを持つ必要がある。
論文 参考訳(メタデータ) (2021-10-01T14:56:37Z) - VoxelTrack: Multi-Person 3D Human Pose Estimation and Tracking in the
Wild [98.69191256693703]
本稿では,VoxelTrackを用いて,多人数の3次元ポーズ推定と,広義のベースラインで分離された少数のカメラからの追跡を行う。
マルチブランチネットワークを使用して、環境中のすべての人に3Dポーズと再識別機能(Re-ID)を共同で推定する。
これは、Shelf、Campus、CMU Panopticの3つの公開データセットに対して、最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-08-05T08:35:44Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Tracking Emerges by Looking Around Static Scenes, with Neural 3D Mapping [23.456046776979903]
本稿では,任意の場面(静的あるいは動的)における静止点のマルチビューデータを利用して,ニューラル3Dマッピングモジュールを学習することを提案する。
ニューラル3Dマッパーは、RGB-Dデータを入力として消費し、深い特徴の3Dボクセルグリッドを出力として生成する。
教師なし3Dオブジェクトトラッカーは、教師なし2Dと2.5Dのトラッカーよりも優れており、教師なし3Dオブジェクトトラッカーの精度に近づいていることを示す。
論文 参考訳(メタデータ) (2020-08-04T02:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。