論文の概要: Multi-latent Space Alignments for Unsupervised Domain Adaptation in
Multi-view 3D Object Detection
- arxiv url: http://arxiv.org/abs/2211.17126v1
- Date: Wed, 30 Nov 2022 16:03:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 17:25:19.194052
- Title: Multi-latent Space Alignments for Unsupervised Domain Adaptation in
Multi-view 3D Object Detection
- Title(参考訳): マルチビュー3次元物体検出における教師なし領域適応のためのマルチレイテンシ空間アライメント
- Authors: Jiaming Liu, Rongyu Zhang, Xiaowei Chi, Xiaoqi Li, Ming Lu, Yandong
Guo, Shanghang Zhang
- Abstract要約: Vision-Centric Bird-Eye-View (BEV) の認識は、将来有望な可能性を示し、自動運転における注目を集めている。
最近の研究は、効率や精度の向上に重点を置いているが、ドメインシフトの問題を無視しているため、転送性能が著しく低下する。
ドメインシフトの蓄積を容易にするため,マルチレベルマルチスペースアライメント・教師・スチューデント(M2ATS$)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 30.080882063817548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Centric Bird-Eye-View (BEV) perception has shown promising potential
and attracted increasing attention in autonomous driving. Recent works mainly
focus on improving efficiency or accuracy but neglect the domain shift problem,
resulting in severe degradation of transfer performance. With extensive
observations, we figure out the significant domain gaps existing in the scene,
weather, and day-night changing scenarios and make the first attempt to solve
the domain adaption problem for multi-view 3D object detection. Since BEV
perception approaches are usually complicated and contain several components,
the domain shift accumulation on multi-latent spaces makes BEV domain
adaptation challenging. In this paper, we propose a novel Multi-level
Multi-space Alignment Teacher-Student ($M^{2}ATS$) framework to ease the domain
shift accumulation, which consists of a Depth-Aware Teacher (DAT) and a
Multi-space Feature Aligned (MFA) student model. Specifically, DAT model adopts
uncertainty guidance to sample reliable depth information in target domain.
After constructing domain-invariant BEV perception, it then transfers pixel and
instance-level knowledge to student model. To further alleviate the domain
shift at the global level, MFA student model is introduced to align
task-relevant multi-space features of two domains. To verify the effectiveness
of $M^{2}ATS$, we conduct BEV 3D object detection experiments on four cross
domain scenarios and achieve state-of-the-art performance (e.g., +12.6% NDS and
+9.1% mAP on Day-Night). Code and dataset will be released.
- Abstract(参考訳): 視覚中心鳥眼視(bev)の認識は有望な可能性を示しており、自動運転において注目を集めている。
最近の研究は主に効率や精度の向上に焦点を絞っているが、ドメインシフト問題は無視され、転送性能が著しく低下している。
広範にわたる観察により,現場,天気,日中の変化シナリオに存在する重要な領域ギャップを把握し,多視点3次元物体検出のための領域適応問題の解法を最初に試みる。
BEV知覚アプローチは通常複雑であり、いくつかの成分を含んでいるため、多遅延空間上でのドメインシフトの蓄積は、BEV領域適応を困難にしている。
本稿では,DAT(Depth-Aware Teacher)とMFA(Multi-space Feature Aligned)の学生モデルからなる,ドメインシフトの蓄積を容易にするための,新しいマルチレベルマルチスペースアライメント教師(M^{2}ATS$)フレームワークを提案する。
具体的には、DATモデルが不確実性ガイダンスを採用して、対象領域の信頼性深度情報をサンプリングする。
ドメイン不変なBEV知覚を構築した後、ピクセルとインスタンスレベルの知識を学生モデルに転送する。
グローバルレベルでのドメインシフトを緩和するために、MFA学生モデルを導入し、2つのドメインのタスク関連マルチスペース機能を調整する。
M^{2}ATS$の有効性を検証するために、BEV 3Dオブジェクト検出実験を4つのクロスドメインシナリオで実施し、最先端のパフォーマンスを達成する(例:+12.6% NDSと+9.1% mAP on Day-Night)。
コードとデータセットがリリースされる。
関連論文リスト
- Multimodal 3D Object Detection on Unseen Domains [37.142470149311904]
ドメイン適応アプローチは、この問題に対処するために、テストディストリビューションから無注釈のサンプルへのアクセスを前提とします。
マルチモーダル融合および3次元オブジェクト検出のための教師付きコントラスト学習フレームワークであるCLIX$text3D$を提案する。
CLIX$text3D$は、複数のデータセットシフト下での最先端のドメイン一般化性能を示す。
論文 参考訳(メタデータ) (2024-04-17T21:47:45Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception [104.87876441265593]
カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。
非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。
DA-BEVは、画像ビュー機能とBEV機能の相補性を利用して、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラのみのBEVフレームワークである。
論文 参考訳(メタデータ) (2024-01-13T04:21:24Z) - Density-Insensitive Unsupervised Domain Adaption on 3D Object Detection [19.703181080679176]
ポイントクラウドからの3Dオブジェクト検出は、安全クリティカルな自動運転において不可欠である。
本稿では,密度依存性ドメインギャップに対処する密度依存性ドメイン適応フレームワークを提案する。
3つの広く採用されている3次元オブジェクト検出データセットの実験結果から,提案手法が最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-04-19T06:33:07Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Towards Domain Generalization for Multi-view 3D Object Detection in
Bird-Eye-View [11.958753088613637]
まず,MV3D-Detタスクにおける領域ギャップの原因を解析する。
頑健な深度予測を得るために,カメラの内在パラメータから深度推定を分離する手法を提案する。
焦点長の値を変更して複数の擬似ドメインを作成し、敵の訓練損失を発生させ、特徴表現をよりドメインに依存しないものにするよう促す。
論文 参考訳(メタデータ) (2023-03-03T02:59:13Z) - DA-CIL: Towards Domain Adaptive Class-Incremental 3D Object Detection [2.207918236777924]
本稿では,新しい3次元ドメイン適応型クラスインクリメンタルオブジェクト検出フレームワークDA-CILを提案する。
トレーニング分布を多様化する複数の拡張ドメインを構築するために、新しいデュアルドメインコピーペースト拡張法を設計する。
各種データセットを用いた実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-12-05T06:45:27Z) - Geometry-Aware Network for Domain Adaptive Semantic Segmentation [64.00345743710653]
本稿では,ドメイン間のギャップを小さくするために,ドメイン適応のための幾何学的ネットワーク(GANDA)を提案する。
我々は、RGB-D画像から生成された点雲上の3Dトポロジを利用して、対象領域における座標色歪みと擬似ラベルの微細化を行う。
我々のモデルは,GTA5->CityscapesとSynTHIA->Cityscapesの最先端技術より優れている。
論文 参考訳(メタデータ) (2022-12-02T00:48:44Z) - Unsupervised Domain Adaptation for Monocular 3D Object Detection via
Self-Training [57.25828870799331]
我々は、Mono3D上での教師なしドメイン適応のための新しい自己学習フレームワークSTMono3Dを提案する。
対象ドメイン上で適応的な擬似ラベルを生成するための教師学生パラダイムを開発する。
STMono3Dは、評価されたすべてのデータセットで顕著なパフォーマンスを達成し、KITTI 3Dオブジェクト検出データセットの完全な教師付き結果を超えています。
論文 参考訳(メタデータ) (2022-04-25T12:23:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。