論文の概要: BEV-SUSHI: Multi-Target Multi-Camera 3D Detection and Tracking in Bird's-Eye View
- arxiv url: http://arxiv.org/abs/2412.00692v1
- Date: Sun, 01 Dec 2024 06:18:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 21:11:22.131761
- Title: BEV-SUSHI: Multi-Target Multi-Camera 3D Detection and Tracking in Bird's-Eye View
- Title(参考訳): BEV-SUSHI:バードアイビューにおけるマルチターゲットマルチカメラ3D検出と追跡
- Authors: Yizhou Wang, Tim Meinhardt, Orcun Cetintas, Cheng-Yen Yang, Sameer Satish Pusegaonkar, Benjamin Missaoui, Sujit Biswas, Zheng Tang, Laura Leal-Taixé,
- Abstract要約: 本稿では,BEV-SUSHIという3次元物体検出・追跡フレームワークを提案する。
鳥の目視で3Dオブジェクトを検出するために、カメラキャリブレーションパラメータを必要とするマルチビュー画像を集約する。
既存の方法とは異なり、BEV-SUSHIは様々なシーンにまたがって印象的な一般化性を持ち、カメラの設定も様々である。
- 参考スコア(独自算出の注目度): 39.75692195719607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object perception from multi-view cameras is crucial for intelligent systems, particularly in indoor environments, e.g., warehouses, retail stores, and hospitals. Most traditional multi-target multi-camera (MTMC) detection and tracking methods rely on 2D object detection, single-view multi-object tracking (MOT), and cross-view re-identification (ReID) techniques, without properly handling important 3D information by multi-view image aggregation. In this paper, we propose a 3D object detection and tracking framework, named BEV-SUSHI, which first aggregates multi-view images with necessary camera calibration parameters to obtain 3D object detections in bird's-eye view (BEV). Then, we introduce hierarchical graph neural networks (GNNs) to track these 3D detections in BEV for MTMC tracking results. Unlike existing methods, BEV-SUSHI has impressive generalizability across different scenes and diverse camera settings, with exceptional capability for long-term association handling. As a result, our proposed BEV-SUSHI establishes the new state-of-the-art on the AICity'24 dataset with 81.22 HOTA, and 95.6 IDF1 on the WildTrack dataset.
- Abstract(参考訳): マルチビューカメラからの物体認識は、特に屋内環境、倉庫、小売店、病院などのインテリジェントシステムにとって不可欠である。
従来のMTMC(Multi-target Multi-camera)検出と追跡手法は、2Dオブジェクト検出、MOT(Single-view Multi-Object Tracking)、ReID(Cross-view Re-identification)技術に頼っている。
本稿では,BEV-SUSHIという3次元物体検出・追跡を行うフレームワークを提案する。
次に,階層型グラフニューラルネットワーク(GNN)を導入して,これらの3次元検出をBEVで追跡し,MTMC追跡結果と比較する。
既存の方法とは異なり、BEV-SUSHIは様々なシーンと多様なカメラ設定にまたがって印象的な一般化性を持ち、長期的なアソシエーション処理には例外的な能力がある。
その結果,提案した BEV-SUSHI は AICity'24 データセットに 81.22 HOTA と 95.6 IDF1 の新たな最先端技術を確立した。
関連論文リスト
- MITracker: Multi-View Integration for Visual Object Tracking [15.713725317019321]
我々は,マルチビューオブジェクトを効率的に統合する新しいMVOT手法であるMulti-View Integration Tracker(MITracker)を開発した。
MITrackerは任意の視点から任意の長さのビデオフレーム内の任意のオブジェクトを追跡することができる。
MITrackerはMVTrackとGMTDデータセットの既存のメソッドを上回り、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-27T14:03:28Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Towards Generalizable Multi-Camera 3D Object Detection via Perspective
Debiasing [28.874014617259935]
マルチカメラ3Dオブジェクト検出(MC3D-Det)は,鳥眼ビュー(BEV)の出現によって注目されている。
本研究では,3次元検出と2次元カメラ平面との整合性を両立させ,一貫した高精度な検出を実現する手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T15:31:28Z) - UniScene: Multi-Camera Unified Pre-training via 3D Scene Reconstruction for Autonomous Driving [11.507979392707448]
我々は、UniSceneと呼ばれる、最初のマルチカメラ統合事前学習フレームワークを提案する。
我々は3次元シーンの一般的な表現としてOccupancyを使用し、そのモデルが周囲の世界の幾何学的先行を把握できるようにする。
UniSceneは、マルチカメラ3Dオブジェクト検出において、mAPが約2.0%、NDSが約2.0%、セマンティックシーン完了時のmIoUが3%向上した。
論文 参考訳(メタデータ) (2023-05-30T08:23:06Z) - ByteTrackV2: 2D and 3D Multi-Object Tracking by Associating Every
Detection Box [81.45219802386444]
マルチオブジェクトトラッキング(MOT)は、ビデオフレーム間のオブジェクトのバウンディングボックスとIDを推定することを目的としている。
低スコア検出ボックス内の真のオブジェクトをマイニングするための階層型データアソシエーション戦略を提案する。
3次元のシナリオでは、トラッカーが世界座標の物体速度を予測するのがずっと簡単である。
論文 参考訳(メタデータ) (2023-03-27T15:35:21Z) - GeoMIM: Towards Better 3D Knowledge Transfer via Masked Image Modeling
for Multi-view 3D Understanding [42.780417042750315]
マルチビューカメラによる3D検出は、コンピュータビジョンにおいて難しい問題である。
最近の研究は、事前訓練されたLiDAR検出モデルを利用して、知識をカメラベースの学生ネットワークに転送する。
我々は,LiDARモデルの知識を事前学習のパラダイムに伝達するための拡張幾何マスク画像モデリング(GeoMIM)を提案する。
論文 参考訳(メタデータ) (2023-03-20T17:59:03Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - MVM3Det: A Novel Method for Multi-view Monocular 3D Detection [0.0]
MVM3Detは、多視点単眼情報に基づいて、オブジェクトの3次元位置と向きを同時に推定する。
MVM3Dというマルチビュー3Dオブジェクト検出のための最初のデータセットを提案する。
論文 参考訳(メタデータ) (2021-09-22T01:31:00Z) - Know Your Surroundings: Panoramic Multi-Object Tracking by Multimodality
Collaboration [56.01625477187448]
MMPAT(MultiModality PAnoramic Multi-object Tracking framework)を提案する。
2次元パノラマ画像と3次元点雲を入力とし、マルチモーダルデータを用いて目標軌道を推定する。
提案手法は,検出タスクと追跡タスクの両方においてMMPATが最高性能を達成するJRDBデータセット上で評価する。
論文 参考訳(メタデータ) (2021-05-31T03:16:38Z) - 3D-MAN: 3D Multi-frame Attention Network for Object Detection [22.291051951077485]
3D-MANは、複数の視点から効果的に機能を集約する3Dマルチフレームアテンションネットワークです。
3D-MANは, 単フレームおよび複数フレームの手法と比較して, 最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-30T03:44:22Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Relation3DMOT: Exploiting Deep Affinity for 3D Multi-Object Tracking
from View Aggregation [8.854112907350624]
3Dマルチオブジェクトトラッキングは、自律ナビゲーションにおいて重要な役割を果たす。
多くのアプローチでは、トラッキングのための2次元RGBシーケンス内のオブジェクトを検出するが、これは3次元空間内のオブジェクトをローカライズする際の信頼性の欠如である。
本稿では,隣接フレーム内の各オブジェクト間の相関をよりよく活用するために,RelationConvという新しい畳み込み演算を提案する。
論文 参考訳(メタデータ) (2020-11-25T16:14:40Z) - BirdNet+: End-to-End 3D Object Detection in LiDAR Bird's Eye View [117.44028458220427]
自動運転車のオンボード3Dオブジェクト検出は、LiDARデバイスが捉えた幾何学情報に依存することが多い。
本稿では,BEV画像のみから指向性3Dボックスを推測可能な,エンドツーエンドの3Dオブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-09T15:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。