論文の概要: Leveraging Previous-Traversal Point Cloud Map Priors for Camera-Based 3D Object Detection and Tracking
- arxiv url: http://arxiv.org/abs/2604.25405v1
- Date: Tue, 28 Apr 2026 09:16:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.791183
- Title: Leveraging Previous-Traversal Point Cloud Map Priors for Camera-Based 3D Object Detection and Tracking
- Title(参考訳): カメラによる3次元物体検出・追跡のための先行的トラバース点クラウドマップの活用
- Authors: Markus Käppeler, Özgün Çiçek, Yakov Miron, Abhinav Valada,
- Abstract要約: 我々はDualViewMapDetを提案する。DualViewMapDetはカメラのみの推論フレームワークで、オンラインでマップの先行情報を検索する。
鍵となるアイデアは、片側ビュー変換を避けるデュアルスペースカメラマップ融合戦略である。
コードと事前トレーニングされたモデルはhttps://dualviewmapdet.cs.uni-freiburg.deで公開しています。
- 参考スコア(独自算出の注目度): 15.914966195454403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camera-based 3D object detection and tracking are central to autonomous driving, yet precise 3D object localization remains fundamentally constrained by depth ambiguity when no expensive, depth-rich online LiDAR is available at inference. In many deployments, however, vehicles repeatedly traverse the same environments, making static point cloud maps from prior traversals a practical source of geometric priors. We propose DualViewMapDet, a camera-only inference framework that retrieves such map priors online and leverages them to mitigate the absence of a LiDAR sensor during deployment. The key idea is a dual-space camera-map fusion strategy that avoids one-sided view conversion. Specifically, we (i) project the map into perspective view (PV) and encode multi-channel geometric cues to enrich image features and support BEV lifting, and (ii) encode the map directly in bird's-eye view (BEV) with a sparse voxel backbone and fuse it with lifted camera features in a shared metric space. Extensive evaluations on nuScenes and Argoverse 2 demonstrate consistent improvements over strong camera-only baselines, with particularly strong gains in object localization. Ablations further validate the contributions of PV/BEV fusion and prior-map coverage. We make the code and pre-trained models available at https://dualviewmapdet.cs.uni-freiburg.de .
- Abstract(参考訳): カメラによる3Dオブジェクトの検出と追跡は自動運転の中心であるが、正確な3Dオブジェクトのローカライゼーションは、高価で深度に富んだオンラインLiDARが推論で利用できない場合、基本的には深度あいまいさによって制約されている。
しかし、多くの展開において、車両は同じ環境を何度も横切ることがあり、前方からの静的点雲マップは幾何学的先行の実用的な情報源となっている。
我々は、カメラのみの推論フレームワークであるDualViewMapDetを提案し、そのようなマップの事前情報をオンラインで取得し、それらを活用して、デプロイ中にLiDARセンサーが存在しないことを緩和する。
鍵となるアイデアは、片側ビュー変換を避けるデュアルスペースカメラマップ融合戦略である。
具体的には
(i)視点ビュー(PV)に地図を投影し、多チャンネル幾何学的手がかりを符号化して画像特徴を充実させ、BEVリフトをサポートし、
(i) 地図を直接鳥眼ビュー(BEV)にスパルス・ボクセルバックボーンでエンコードし、共有距離空間で持ち上げられたカメラ特徴と融合させる。
nuScenesとArgoverse 2の大規模な評価では、強力なカメラのみのベースラインよりも一貫した改善が見られ、特にオブジェクトのローカライゼーションが向上した。
アブレーションはPV/BEV融合と事前マップのカバレッジの貢献をさらに検証する。
コードと事前トレーニングされたモデルはhttps://dualviewmapdet.cs.uni-freiburg.deで公開しています。
関連論文リスト
- VGGT: Visual Geometry Grounded Transformer [61.37669770946458]
VGGTは、シーンのすべての重要な3D属性を直接推論するフィードフォワードニューラルネットワークである。
ネットワークは、複数の3Dタスクで最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-03-14T17:59:47Z) - Towards Generalizable Multi-Camera 3D Object Detection via Perspective
Debiasing [28.874014617259935]
マルチカメラ3Dオブジェクト検出(MC3D-Det)は,鳥眼ビュー(BEV)の出現によって注目されている。
本研究では,3次元検出と2次元カメラ平面との整合性を両立させ,一貫した高精度な検出を実現する手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T15:31:28Z) - CoBEV: Elevating Roadside 3D Object Detection with Depth and Height Complementarity [34.025530326420146]
我々は、新しいエンドツーエンドのモノクロ3Dオブジェクト検出フレームワークであるComplementary-BEVを開発した。
道路カメラを用いたDAIR-V2X-IとRope3Dの公開3次元検出ベンチマークについて広範な実験を行った。
カメラモデルのAPスコアが初めてDAIR-V2X-Iで80%に達する。
論文 参考訳(メタデータ) (2023-10-04T13:38:53Z) - UniScene: Multi-Camera Unified Pre-training via 3D Scene Reconstruction for Autonomous Driving [11.507979392707448]
我々は、UniSceneと呼ばれる、最初のマルチカメラ統合事前学習フレームワークを提案する。
我々は3次元シーンの一般的な表現としてOccupancyを使用し、そのモデルが周囲の世界の幾何学的先行を把握できるようにする。
UniSceneは、マルチカメラ3Dオブジェクト検出において、mAPが約2.0%、NDSが約2.0%、セマンティックシーン完了時のmIoUが3%向上した。
論文 参考訳(メタデータ) (2023-05-30T08:23:06Z) - BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文 参考訳(メタデータ) (2022-12-12T08:15:03Z) - Satellite Image Based Cross-view Localization for Autonomous Vehicle [59.72040418584396]
本稿では,市販の高精細衛星画像を使用可能な地図として利用することにより,良好な精度でクロスビュー車両のローカライゼーションを実現することができることを示す。
本手法はKITTIとFord Multi-AVの季節データセットを地上ビューとして,Google Mapsを衛星ビューとして検証した。
論文 参考訳(メタデータ) (2022-07-27T13:16:39Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。