論文の概要: BEVUDA++: Geometric-aware Unsupervised Domain Adaptation for Multi-View 3D Object Detection
- arxiv url: http://arxiv.org/abs/2509.14151v1
- Date: Wed, 17 Sep 2025 16:31:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.920797
- Title: BEVUDA++: Geometric-aware Unsupervised Domain Adaptation for Multi-View 3D Object Detection
- Title(参考訳): BEVUDA++:多視点3Dオブジェクト検出のための幾何学的非教師付きドメイン適応
- Authors: Rongyu Zhang, Jiaming Liu, Xiaoqi Li, Xiaowei Chi, Dan Wang, Li Du, Yuan Du, Shanghang Zhang,
- Abstract要約: 視覚中心のBird's Eye View (BEV) の認識は、自律運転にかなりの可能性を秘めている。
近年の研究では、効率性や精度の向上が優先されているが、ドメインシフトの問題は見過ごされている。
本稿では,この問題を解消するために,革新的な幾何学的学習支援フレームワークであるBEVUDA++を紹介する。
- 参考スコア(独自算出の注目度): 56.477525075806966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-centric Bird's Eye View (BEV) perception holds considerable promise for autonomous driving. Recent studies have prioritized efficiency or accuracy enhancements, yet the issue of domain shift has been overlooked, leading to substantial performance degradation upon transfer. We identify major domain gaps in real-world cross-domain scenarios and initiate the first effort to address the Domain Adaptation (DA) challenge in multi-view 3D object detection for BEV perception. Given the complexity of BEV perception approaches with their multiple components, domain shift accumulation across multi-geometric spaces (e.g., 2D, 3D Voxel, BEV) poses a significant challenge for BEV domain adaptation. In this paper, we introduce an innovative geometric-aware teacher-student framework, BEVUDA++, to diminish this issue, comprising a Reliable Depth Teacher (RDT) and a Geometric Consistent Student (GCS) model. Specifically, RDT effectively blends target LiDAR with dependable depth predictions to generate depth-aware information based on uncertainty estimation, enhancing the extraction of Voxel and BEV features that are essential for understanding the target domain. To collaboratively reduce the domain shift, GCS maps features from multiple spaces into a unified geometric embedding space, thereby narrowing the gap in data distribution between the two domains. Additionally, we introduce a novel Uncertainty-guided Exponential Moving Average (UEMA) to further reduce error accumulation due to domain shifts informed by previously obtained uncertainty guidance. To demonstrate the superiority of our proposed method, we execute comprehensive experiments in four cross-domain scenarios, securing state-of-the-art performance in BEV 3D object detection tasks, e.g., 12.9\% NDS and 9.5\% mAP enhancement on Day-Night adaptation.
- Abstract(参考訳): 視覚中心のBird's Eye View (BEV) の認識は、自律運転にかなりの可能性を秘めている。
近年の研究では、効率性や精度の向上が優先されているが、ドメインシフトの問題は見過ごされ、転送時の大幅な性能低下につながっている。
実世界のクロスドメインシナリオにおける大きなドメインギャップを特定し、BEV知覚のための多視点3Dオブジェクト検出において、ドメイン適応(DA)課題に対処する最初の取り組みを開始する。
複数のコンポーネントによるBEV知覚アプローチの複雑さを考えると、多幾何学空間(例えば、2D、3D Voxel、BEV)におけるドメインシフトの蓄積は、BEVドメイン適応にとって大きな課題となる。
本稿では,Reliable Depth Teacher (RDT) と Geometric Consistent Students (GCS) モデルを含む,革新的な幾何学的学習者支援フレームワークである BEVUDA++ を導入する。
具体的には、RDTは、ターゲットのLiDARと信頼できる深さ予測を効果的にブレンドし、不確実性推定に基づいて深度認識情報を生成し、ターゲットドメインを理解するのに不可欠なVoxelとBEVの特徴の抽出を強化する。
ドメインシフトを協調的に低減するため、GCSは複数の空間から統合された幾何学的埋め込み空間に特徴をマッピングし、2つのドメイン間のデータ分散のギャップを狭める。
さらに,従来得られた不確実性ガイダンスによって得られた領域シフトによるエラーの蓄積を低減するために,新しい不確実性誘導指数移動平均(UEMA)を導入する。
提案手法の優位性を示すため、4つのクロスドメインシナリオにおいて総合的な実験を行い、例えば、12.9\% NDSおよび9.5\% mAPによる日中適応の強化など、BEV 3Dオブジェクト検出タスクにおける最先端性能を確保する。
関連論文リスト
- Unified Domain Generalization and Adaptation for Multi-View 3D Object Detection [14.837853049121687]
マルチビューカメラを利用した3次元物体検出は, 視覚課題における実用的, 経済的価値を実証した。
典型的な教師付き学習アプローチは、目に見えない、ラベルなしのターゲットデータセットに対する満足な適応を達成する上で、課題に直面します。
本稿では、これらの欠点を軽減するための実践的なソリューションとして、統一ドメイン一般化・適応(UDGA)を提案する。
論文 参考訳(メタデータ) (2024-10-29T18:51:49Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception [104.87876441265593]
カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。
非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。
DA-BEVは、画像ビュー機能とBEV機能の相補性を利用して、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラのみのBEVフレームワークである。
論文 参考訳(メタデータ) (2024-01-13T04:21:24Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Towards Domain Generalization for Multi-view 3D Object Detection in
Bird-Eye-View [11.958753088613637]
まず,MV3D-Detタスクにおける領域ギャップの原因を解析する。
頑健な深度予測を得るために,カメラの内在パラメータから深度推定を分離する手法を提案する。
焦点長の値を変更して複数の擬似ドメインを作成し、敵の訓練損失を発生させ、特徴表現をよりドメインに依存しないものにするよう促す。
論文 参考訳(メタデータ) (2023-03-03T02:59:13Z) - BEVUDA: Multi-geometric Space Alignments for Domain Adaptive BEV 3D Object Detection [38.89172554074154]
視覚中心の鳥眼視(BEV)の認識は、自律運転において有望な可能性を示している。
最近の研究は主に効率や精度の向上に重点を置いているが、環境の変化に直面している場合の課題は無視されている。
ドメインシフトの蓄積を容易にするために,マルチスペースアライメント・教師学生(MATS)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-30T16:03:24Z) - Unsupervised Domain Adaptation for Monocular 3D Object Detection via
Self-Training [57.25828870799331]
我々は、Mono3D上での教師なしドメイン適応のための新しい自己学習フレームワークSTMono3Dを提案する。
対象ドメイン上で適応的な擬似ラベルを生成するための教師学生パラダイムを開発する。
STMono3Dは、評価されたすべてのデータセットで顕著なパフォーマンスを達成し、KITTI 3Dオブジェクト検出データセットの完全な教師付き結果を超えています。
論文 参考訳(メタデータ) (2022-04-25T12:23:07Z) - Unsupervised Domain Adaptive 3D Detection with Multi-Level Consistency [90.71745178767203]
ディープラーニングに基づく3Dオブジェクト検出は、大規模な自律走行データセットの出現によって、前例のない成功を収めた。
既存の3Dドメイン適応検出手法は、しばしばターゲットのドメインアノテーションへの事前アクセスを前提とします。
我々は、ソースドメインアノテーションのみを利用する、より現実的な、教師なしの3Dドメイン適応検出について研究する。
論文 参考訳(メタデータ) (2021-07-23T17:19:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。