論文の概要: Bridging Perspectives: Foundation Model Guided BEV Maps for 3D Object Detection and Tracking
- arxiv url: http://arxiv.org/abs/2510.10287v1
- Date: Sat, 11 Oct 2025 17:01:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.875966
- Title: Bridging Perspectives: Foundation Model Guided BEV Maps for 3D Object Detection and Tracking
- Title(参考訳): ブリッジング・パースペクティブ:3次元物体検出・追跡のための基礎モデル誘導型BEVマップ
- Authors: Markus Käppeler, Özgün Çiçek, Daniele Cattaneo, Claudius Gläser, Yakov Miron, Abhinav Valada,
- Abstract要約: カメラによる3Dオブジェクトの検出と追跡は、自律運転における認識に不可欠である。
現在の最先端のアプローチは、しばしば視点ビュー(PV)または鳥眼ビュー(BEV)の機能にのみ依存する。
PVとBEVの両方のカメラ画像機能を備えたハイブリッド検出・トラッキングフレームワークであるDualViewDistillを提案する。
- 参考スコア(独自算出の注目度): 16.90910171943142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camera-based 3D object detection and tracking are essential for perception in autonomous driving. Current state-of-the-art approaches often rely exclusively on either perspective-view (PV) or bird's-eye-view (BEV) features, limiting their ability to leverage both fine-grained object details and spatially structured scene representations. In this work, we propose DualViewDistill, a hybrid detection and tracking framework that incorporates both PV and BEV camera image features to leverage their complementary strengths. Our approach introduces BEV maps guided by foundation models, leveraging descriptive DINOv2 features that are distilled into BEV representations through a novel distillation process. By integrating PV features with BEV maps enriched with semantic and geometric features from DINOv2, our model leverages this hybrid representation via deformable aggregation to enhance 3D object detection and tracking. Extensive experiments on the nuScenes and Argoverse 2 benchmarks demonstrate that DualViewDistill achieves state-of-the-art performance. The results showcase the potential of foundation model BEV maps to enable more reliable perception for autonomous driving. We make the code and pre-trained models available at https://dualviewdistill.cs.uni-freiburg.de .
- Abstract(参考訳): カメラによる3Dオブジェクトの検出と追跡は、自動運転における認識に不可欠である。
現在の最先端のアプローチは、しばしば視点ビュー(PV)または鳥眼ビュー(BEV)の機能にのみ依存し、細粒度オブジェクトの詳細と空間的に構造化されたシーン表現の両方を活用する能力を制限する。
本研究では、PVとBEVの両方のカメラ画像特徴を組み込んだハイブリッド検出・追跡フレームワークであるDualViewDistillを提案する。
提案手法では, 基礎モデルにより導かれるBEVマップを導入し, 新規蒸留プロセスを通じてBEV表現に蒸留される記述的DINOv2特徴を活用する。
DINOv2のセマンティックおよび幾何学的特徴に富んだBEVマップにPV機能を統合することで、変形可能なアグリゲーションによってこのハイブリッド表現を活用し、3Dオブジェクトの検出と追跡を強化する。
nuScenesとArgoverse 2ベンチマークに関する大規模な実験は、DualViewDistillが最先端のパフォーマンスを達成することを示した。
この結果は、BEVマップの基盤モデルが自律運転をより信頼性の高い認識を可能にする可能性を示している。
コードと事前トレーニングされたモデルはhttps://dualviewdistill.cs.uni-freiburg.deで公開しています。
関連論文リスト
- DuoSpaceNet: Leveraging Both Bird's-Eye-View and Perspective View Representations for 3D Object Detection [3.526990431236137]
多視点カメラのみの3Dオブジェクト検出は、鳥の目視(BEV)表現を利用するか、視点視(PV)機能に焦点を当てる2つの主要なパラダイムに大きく従っている。
我々は,BEVとPVの機能空間を完全に統合した新しいフレームワークであるDuoSpaceNetを,総合的な3次元知覚のための単一検出パイプライン内に提案する。
論文 参考訳(メタデータ) (2024-05-17T07:04:29Z) - Zero-BEV: Zero-shot Projection of Any First-Person Modality to BEV Maps [13.524499163234342]
本稿では,対応するBEVマップに対して,一人称視点で利用可能な任意のモダリティをゼロショット投影できる新しいモデルを提案する。
本研究では,本モデルが競合手法,特に単眼深度推定に広く用いられているベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-21T14:50:24Z) - DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception [104.87876441265593]
カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。
非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。
DA-BEVは、画像ビュー機能とBEV機能の相補性を利用して、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラのみのBEVフレームワークである。
論文 参考訳(メタデータ) (2024-01-13T04:21:24Z) - SA-BEV: Generating Semantic-Aware Bird's-Eye-View Feature for Multi-view
3D Object Detection [46.92706423094971]
画像特徴のセマンティックセグメンテーションに応じて背景情報をフィルタリングするセマンティック・アウェア・BEVプール(SA-BEVPool)を提案する。
また、セマンティック・アウェアのBEV機能と密接にマッチする効果的なデータ拡張戦略であるBEV-Pasteを提案する。
nuScenesの実験では、SA-BEVが最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2023-07-21T10:28:19Z) - VoxelFormer: Bird's-Eye-View Feature Generation based on Dual-view
Attention for Multi-view 3D Object Detection [47.926010021559314]
変圧器を用いた検出器は2次元視覚知覚タスクにおいて顕著な性能を示した。
しかし、多視点3Dオブジェクト検出におけるそれらの性能は、畳み込みニューラルネットワークに基づく検出器の最先端(SOTA)よりも劣っている。
本稿では,BEVとカメラの両方から注目重みを生成する,新しいBEV特徴生成手法を提案する。
論文 参考訳(メタデータ) (2023-04-03T15:00:36Z) - Understanding the Robustness of 3D Object Detection with Bird's-Eye-View
Representations in Autonomous Driving [31.98600806479808]
Bird's-Eye-View (BEV)表現は、一般的なベンチマークでカメラ入力を備えた3D検出器の性能を大幅に改善した。
様々な代表モデルの自然的・敵対的ロバスト性を広範囲な環境下で評価する。
本稿では,時間的3次元空間に逆パッチを適用して,その整合性を保証する3次元一貫したパッチアタックを提案する。
論文 参考訳(メタデータ) (2023-03-30T11:16:58Z) - OA-DET3D: Embedding Object Awareness as a General Plug-in for Multi-Camera 3D Object Detection [77.43427778037203]
我々は3Dオブジェクト検出を改善するプラグインモジュールであるOA-DET3Dを紹介する。
OA-DET3Dは、オブジェクト中心の深度情報と前景の擬似点を活用することにより、オブジェクトの表現を高める。
我々は、OA-DET3Dの有効性を検証するために、nuScenesデータセットとArgoverse 2データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。