論文の概要: HierDAMap: Towards Universal Domain Adaptive BEV Mapping via Hierarchical Perspective Priors
- arxiv url: http://arxiv.org/abs/2503.06821v1
- Date: Mon, 10 Mar 2025 01:04:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:45:21.618185
- Title: HierDAMap: Towards Universal Domain Adaptive BEV Mapping via Hierarchical Perspective Priors
- Title(参考訳): HierDAMap: 階層的視点によるユニバーサルドメイン適応型BEVマッピングを目指して
- Authors: Siyu Li, Yihong Cao, Hao Shi, Yongsheng Zang, Xuan He, Kailun Yang, Zhiyong Li,
- Abstract要約: 本稿では,階層的な視点を持つ汎用かつ総合的なBEVドメイン適応フレームワークであるHierDAMapを提案する。
これらの先行とともに、HierDAはセマンティックガイドPseudo Supervision (SGPS)、動的認識コヒーレンス学習 (DACL)、クロスドメインフラストム混合 (CDFM) の3つの重要なコンポーネントから構成されている。
- 参考スコア(独自算出の注目度): 21.551954444621412
- License:
- Abstract: The exploration of Bird's-Eye View (BEV) mapping technology has driven significant innovation in visual perception technology for autonomous driving. BEV mapping models need to be applied to the unlabeled real world, making the study of unsupervised domain adaptation models an essential path. However, research on unsupervised domain adaptation for BEV mapping remains limited and cannot perfectly accommodate all BEV mapping tasks. To address this gap, this paper proposes HierDAMap, a universal and holistic BEV domain adaptation framework with hierarchical perspective priors. Unlike existing research that solely focuses on image-level learning using prior knowledge, this paper explores the guiding role of perspective prior knowledge across three distinct levels: global, sparse, and instance levels. With these priors, HierDA consists of three essential components, including Semantic-Guided Pseudo Supervision (SGPS), Dynamic-Aware Coherence Learning (DACL), and Cross-Domain Frustum Mixing (CDFM). SGPS constrains the cross-domain consistency of perspective feature distribution through pseudo labels generated by vision foundation models in 2D space. To mitigate feature distribution discrepancies caused by spatial variations, DACL employs uncertainty-aware predicted depth as an intermediary to derive dynamic BEV labels from perspective pseudo-labels, thereby constraining the coarse BEV features derived from corresponding perspective features. CDFM, on the other hand, leverages perspective masks of view frustum to mix multi-view perspective images from both domains, which guides cross-domain view transformation and encoding learning through mixed BEV labels. The proposed method is verified on multiple BEV mapping tasks, such as BEV semantic segmentation, high-definition semantic, and vectorized mapping. The source code will be made publicly available at https://github.com/lynn-yu/HierDAMap.
- Abstract(参考訳): Bird's-Eye View (BEV) マッピング技術の探索は、自律運転のための視覚認識技術に大きな革新をもたらした。
BEVマッピングモデルはラベルのない現実世界に適用する必要があるため、教師なし領域適応モデルの研究は必須の道である。
しかしながら、BEVマッピングのための教師なし領域適応の研究は限定的であり、すべてのBEVマッピングタスクを完全には適合できない。
このギャップに対処するために,階層的な視点を持つ汎用かつ総合的なBEVドメイン適応フレームワークであるHierDAMapを提案する。
先行知識を用いた画像レベルの学習のみに焦点を当てた既存の研究とは異なり、本研究では、グローバル、スパース、インスタンスレベルという3つの異なるレベルにわたる視点的事前知識の役割について検討する。
これらの先行して、HierDAはSemantic-Guided Pseudo Supervision (SGPS)、Dynamic-Aware Coherence Learning (DACL)、Cross-Domain Frustum Mixing (CDFM)の3つの重要なコンポーネントで構成されている。
SGPSは2次元空間における視覚基盤モデルによって生成された擬似ラベルを通して、視点特徴分布のドメイン間整合性を制限する。
DACLは、空間的変動に起因する特徴分布の相違を緩和するため、動的BEVラベルを擬似ラベルから導出するために、不確実性を考慮した予測深度を用いて、対応する視点特徴から派生した粗いBEV特徴を制約する。
一方,CDFMでは,ビューフラストラムのパースペクティブマスクを活用して,ドメイン間のビュー変換をガイドし,BEVラベルを混合して学習を符号化する,両ドメインのマルチビュービューパースペクティブイメージを混合する。
提案手法は,BEVセマンティックセマンティックセマンティックス,高定義セマンティックス,ベクトル化マッピングなど,複数のBEVマッピングタスクに対して検証される。
ソースコードはhttps://github.com/lynn-yu/HierDAMapで公開されます。
関連論文リスト
- VQ-Map: Bird's-Eye-View Map Layout Estimation in Tokenized Discrete Space via Vector Quantization [108.68014173017583]
Bird's-eye-view (BEV) マップのレイアウト推定には、エゴ車の周囲の環境要素のセマンティクスを正確に完全に理解する必要がある。
本稿では,Vector Quantized-Variational AutoEncoder (VQ-VAE) に似た生成モデルを用いて,トークン化された離散空間における高レベルのBEVセマンティクスの事前知識を取得することを提案する。
得られたBEVトークンには,異なるBEV要素のセマンティクスを包含したコードブックが組み込まれているため,スパースバックボーン画像特徴と得られたBEVトークンとを直接一致させることができる。
論文 参考訳(メタデータ) (2024-11-03T16:09:47Z) - OE-BevSeg: An Object Informed and Environment Aware Multimodal Framework for Bird's-eye-view Vehicle Semantic Segmentation [57.2213693781672]
Bird's-eye-view (BEV)セマンティックセマンティックセグメンテーションは自律運転システムにおいて重要である。
本稿では,BEVセグメンテーション性能を向上させるエンドツーエンドマルチモーダルフレームワークであるOE-BevSegを提案する。
提案手法は,車両セグメンテーションのためのnuScenesデータセットにおいて,最先端の成果を大きなマージンで達成する。
論文 参考訳(メタデータ) (2024-07-18T03:48:22Z) - LetsMap: Unsupervised Representation Learning for Semantic BEV Mapping [23.366388601110913]
本稿では,FV画像からセマンティックなBEVマップをラベル効率よく生成するための,教師なし表現学習手法を提案する。
提案手法は,2つの解離したニューラルパスを教師なし方式で,シーン幾何学とシーン意味論を独立に推論するために,ネットワークを事前訓練する。
本研究では,FV画像の空間的・時間的整合性を利用して,シーン表現を符号化する新しい時間的マスク付きオートエンコーダの定式化に依存しながら,シーン形状を学習する。
論文 参考訳(メタデータ) (2024-05-29T08:03:36Z) - DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception [104.87876441265593]
カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。
非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。
DA-BEVは、画像ビュー機能とBEV機能の相補性を利用して、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラのみのBEVフレームワークである。
論文 参考訳(メタデータ) (2024-01-13T04:21:24Z) - BEV-DG: Cross-Modal Learning under Bird's-Eye View for Domain
Generalization of 3D Semantic Segmentation [59.99683295806698]
クロスモーダルなUnsupervised Domain Adaptation (UDA)は、新しいドメインにおけるアノテーションの欠如を克服するために、2D-3Dデータの相補性を活用することを目的としている。
本稿では,BEV-DGと呼ばれる3次元セマンティックセグメンテーションの領域一般化(DG)に対する鳥眼図に基づくクロスモーダル学習を提案する。
論文 参考訳(メタデータ) (2023-08-12T11:09:17Z) - Delving into the Devils of Bird's-eye-view Perception: A Review,
Evaluation and Recipe [115.31507979199564]
鳥眼視(BEV)における知覚タスクの強力な表現の学習は、産業と学界の両方から注目されつつある。
センサーの構成が複雑化するにつれて、異なるセンサーからの複数のソース情報の統合と、統一されたビューにおける特徴の表現が重要になる。
BEV知覚の中核的な問題は、(a)視点からBEVへの視点変換を通して失われた3D情報を再構成する方法、(b)BEVグリッドにおける基底真理アノテーションの取得方法、(d)センサー構成が異なるシナリオでアルゴリズムを適応・一般化する方法にある。
論文 参考訳(メタデータ) (2022-09-12T15:29:13Z) - GitNet: Geometric Prior-based Transformation for Birds-Eye-View
Segmentation [105.19949897812494]
Birds-eye-view (BEV) セマンティックセマンティックセグメンテーションは自動運転に不可欠である。
本稿では,GitNetという新しい2段階のGeometry Preside-based Transformationフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-16T06:46:45Z) - Bird's-Eye-View Panoptic Segmentation Using Monocular Frontal View
Images [4.449481309681663]
本研究では,Bird's-Eye-View (BEV) マップにおいて,高密度パノプティックセグメンテーションマップを直接予測するエンド・ツー・エンドの学習手法を提案する。
私たちのアーキテクチャはトップダウンパラダイムに従っており、新しい高密度トランスモジュールを組み込んでいます。
我々は、FV-BEV変換の感度を数学的に定式化し、BEV空間のピクセルをインテリジェントに重み付けすることができる。
論文 参考訳(メタデータ) (2021-08-06T17:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。