論文の概要: BEVUDA: Multi-geometric Space Alignments for Domain Adaptive BEV 3D Object Detection
- arxiv url: http://arxiv.org/abs/2211.17126v2
- Date: Wed, 27 Mar 2024 10:50:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 23:31:58.836236
- Title: BEVUDA: Multi-geometric Space Alignments for Domain Adaptive BEV 3D Object Detection
- Title(参考訳): BEVUDA:ドメイン適応型BEV3Dオブジェクト検出のための多次元空間アライメント
- Authors: Jiaming Liu, Rongyu Zhang, Xiaoqi Li, Xiaowei Chi, Zehui Chen, Ming Lu, Yandong Guo, Shanghang Zhang,
- Abstract要約: 視覚中心の鳥眼視(BEV)の認識は、自律運転において有望な可能性を示している。
最近の研究は主に効率や精度の向上に重点を置いているが、環境の変化に直面している場合の課題は無視されている。
ドメインシフトの蓄積を容易にするために,マルチスペースアライメント・教師学生(MATS)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 38.89172554074154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-centric bird-eye-view (BEV) perception has shown promising potential in autonomous driving. Recent works mainly focus on improving efficiency or accuracy but neglect the challenges when facing environment changing, resulting in severe degradation of transfer performance. For BEV perception, we figure out the significant domain gaps existing in typical real-world cross-domain scenarios and comprehensively solve the Domain Adaption (DA) problem for multi-view 3D object detection. Since BEV perception approaches are complicated and contain several components, the domain shift accumulation on multiple geometric spaces (i.e., 2D, 3D Voxel, BEV) makes BEV DA even challenging. In this paper, we propose a Multi-space Alignment Teacher-Student (MATS) framework to ease the domain shift accumulation, which consists of a Depth-Aware Teacher (DAT) and a Geometric-space Aligned Student (GAS) model. DAT tactfully combines target lidar and reliable depth prediction to construct depth-aware information, extracting target domain-specific knowledge in Voxel and BEV feature spaces. It then transfers the sufficient domain knowledge of multiple spaces to the student model. In order to jointly alleviate the domain shift, GAS projects multi-geometric space features to a shared geometric embedding space and decreases data distribution distance between two domains. To verify the effectiveness of our method, we conduct BEV 3D object detection experiments on three cross-domain scenarios and achieve state-of-the-art performance.
- Abstract(参考訳): 視覚中心の鳥眼視(BEV)の認識は、自律運転において有望な可能性を示している。
最近の研究は主に効率や精度の向上に重点を置いているが、環境の変化に直面している場合の課題は無視されているため、転送性能は著しく低下する。
BEV の認識において,実世界のクロスドメインシナリオに存在する重要な領域ギャップを把握し,多視点3次元オブジェクト検出のための領域適応(DA)問題を包括的に解決する。
BEV知覚アプローチは複雑で、複数の成分を含んでいるため、複数の幾何学空間(例えば、2D、3D Voxel、BEV)上の領域シフト累積は、BEV DAをさらに困難にする。
本稿では,DAT(Depth-Aware Teacher)とGAS(Geometric-space Aligned Students)モデルからなる,ドメインシフトの蓄積を容易にするためのマルチスペースアライメント・教師・学生(MATS)フレームワークを提案する。
DATは、目標ライダーと信頼性のある深度予測を組み合わせて深度認識情報を構築し、VoxelとBEVの特徴空間における対象ドメイン固有の知識を抽出する。
そして、複数の空間の十分なドメイン知識を学生モデルに転送する。
領域シフトを和らげるために、GASは複数の幾何学的空間特徴を共有幾何学的埋め込み空間に投影し、2つの領域間のデータ分散距離を減少させる。
提案手法の有効性を検証するため,BEV 3Dオブジェクト検出実験を3つのクロスドメインシナリオで実施し,最先端の性能を実現する。
関連論文リスト
- Multimodal 3D Object Detection on Unseen Domains [37.142470149311904]
ドメイン適応アプローチは、この問題に対処するために、テストディストリビューションから無注釈のサンプルへのアクセスを前提とします。
マルチモーダル融合および3次元オブジェクト検出のための教師付きコントラスト学習フレームワークであるCLIX$text3D$を提案する。
CLIX$text3D$は、複数のデータセットシフト下での最先端のドメイン一般化性能を示す。
論文 参考訳(メタデータ) (2024-04-17T21:47:45Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception [104.87876441265593]
カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。
非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。
DA-BEVは、画像ビュー機能とBEV機能の相補性を利用して、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラのみのBEVフレームワークである。
論文 参考訳(メタデータ) (2024-01-13T04:21:24Z) - Density-Insensitive Unsupervised Domain Adaption on 3D Object Detection [19.703181080679176]
ポイントクラウドからの3Dオブジェクト検出は、安全クリティカルな自動運転において不可欠である。
本稿では,密度依存性ドメインギャップに対処する密度依存性ドメイン適応フレームワークを提案する。
3つの広く採用されている3次元オブジェクト検出データセットの実験結果から,提案手法が最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-04-19T06:33:07Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Towards Domain Generalization for Multi-view 3D Object Detection in
Bird-Eye-View [11.958753088613637]
まず,MV3D-Detタスクにおける領域ギャップの原因を解析する。
頑健な深度予測を得るために,カメラの内在パラメータから深度推定を分離する手法を提案する。
焦点長の値を変更して複数の擬似ドメインを作成し、敵の訓練損失を発生させ、特徴表現をよりドメインに依存しないものにするよう促す。
論文 参考訳(メタデータ) (2023-03-03T02:59:13Z) - DA-CIL: Towards Domain Adaptive Class-Incremental 3D Object Detection [2.207918236777924]
本稿では,新しい3次元ドメイン適応型クラスインクリメンタルオブジェクト検出フレームワークDA-CILを提案する。
トレーニング分布を多様化する複数の拡張ドメインを構築するために、新しいデュアルドメインコピーペースト拡張法を設計する。
各種データセットを用いた実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-12-05T06:45:27Z) - Geometry-Aware Network for Domain Adaptive Semantic Segmentation [64.00345743710653]
本稿では,ドメイン間のギャップを小さくするために,ドメイン適応のための幾何学的ネットワーク(GANDA)を提案する。
我々は、RGB-D画像から生成された点雲上の3Dトポロジを利用して、対象領域における座標色歪みと擬似ラベルの微細化を行う。
我々のモデルは,GTA5->CityscapesとSynTHIA->Cityscapesの最先端技術より優れている。
論文 参考訳(メタデータ) (2022-12-02T00:48:44Z) - Unsupervised Domain Adaptation for Monocular 3D Object Detection via
Self-Training [57.25828870799331]
我々は、Mono3D上での教師なしドメイン適応のための新しい自己学習フレームワークSTMono3Dを提案する。
対象ドメイン上で適応的な擬似ラベルを生成するための教師学生パラダイムを開発する。
STMono3Dは、評価されたすべてのデータセットで顕著なパフォーマンスを達成し、KITTI 3Dオブジェクト検出データセットの完全な教師付き結果を超えています。
論文 参考訳(メタデータ) (2022-04-25T12:23:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。