論文の概要: BEVDiffLoc: End-to-End LiDAR Global Localization in BEV View based on Diffusion Model
- arxiv url: http://arxiv.org/abs/2503.11372v1
- Date: Fri, 14 Mar 2025 13:17:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 22:04:29.328587
- Title: BEVDiffLoc: End-to-End LiDAR Global Localization in BEV View based on Diffusion Model
- Title(参考訳): BEVDiffLoc:拡散モデルに基づくBEVビューにおけるエンド・ツー・エンドLiDARグローバルローカライゼーション
- Authors: Ziyue Wang, Chenghao Shi, Neng Wang, Qinghua Yu, Xieyuanli Chen, Huimin Lu,
- Abstract要約: Bird's-Eye-View (BEV) 画像は、自動運転において最も広く採用されているデータ表現の1つである。
ポーズの条件生成としてLiDAR局所化を定式化する新しいフレームワークであるBEVDiffLocを提案する。
- 参考スコア(独自算出の注目度): 8.720833232645155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Localization is one of the core parts of modern robotics. Classic localization methods typically follow the retrieve-then-register paradigm, achieving remarkable success. Recently, the emergence of end-to-end localization approaches has offered distinct advantages, including a streamlined system architecture and the elimination of the need to store extensive map data. Although these methods have demonstrated promising results, current end-to-end localization approaches still face limitations in robustness and accuracy. Bird's-Eye-View (BEV) image is one of the most widely adopted data representations in autonomous driving. It significantly reduces data complexity while preserving spatial structure and scale consistency, making it an ideal representation for localization tasks. However, research on BEV-based end-to-end localization remains notably insufficient. To fill this gap, we propose BEVDiffLoc, a novel framework that formulates LiDAR localization as a conditional generation of poses. Leveraging the properties of BEV, we first introduce a specific data augmentation method to significantly enhance the diversity of input data. Then, the Maximum Feature Aggregation Module and Vision Transformer are employed to learn robust features while maintaining robustness against significant rotational view variations. Finally, we incorporate a diffusion model that iteratively refines the learned features to recover the absolute pose. Extensive experiments on the Oxford Radar RobotCar and NCLT datasets demonstrate that BEVDiffLoc outperforms the baseline methods. Our code is available at https://github.com/nubot-nudt/BEVDiffLoc.
- Abstract(参考訳): ローカライゼーションは現代のロボティクスの中核部分の1つである。
古典的なローカライゼーション手法は典型的には検索・登録のパラダイムに従っており、顕著な成功を収めている。
近年、エンド・ツー・エンドのローカライズ・アプローチの出現は、システムアーキテクチャの合理化や、広範囲にわたるマップデータの保存の必要性の排除など、大きなメリットをもたらしている。
これらの手法は有望な結果を示しているが、現在のエンドツーエンドのローカライゼーションアプローチは、堅牢性と精度の限界に直面している。
Bird's-Eye-View (BEV) 画像は、自動運転において最も広く採用されているデータ表現の1つである。
空間構造とスケールの整合性を保ちながら、データの複雑さを著しく低減し、ローカライズタスクの理想的な表現となる。
しかし、BEVに基づくエンドツーエンドのローカライゼーションに関する研究は、依然として顕著に不十分である。
このギャップを埋めるために,ポーズの条件生成としてLiDARローカライゼーションを定式化する新しいフレームワークであるBEVDiffLocを提案する。
まず,BEVの特性を活用して,入力データの多様性を著しく向上する特定のデータ拡張手法を提案する。
次に、最大特徴集約モジュールと視覚変換器を用いて、重要な回転ビュー変動に対して頑健性を維持しつつ、ロバストな特徴を学習する。
最後に、学習した特徴を反復的に洗練し、絶対的なポーズを復元する拡散モデルを導入する。
Oxford Radar RobotCarとNCLTデータセットの大規模な実験は、BEVDiffLocがベースライン法より優れていることを示した。
私たちのコードはhttps://github.com/nubot-nudt/BEVDiffLoc.comで利用可能です。
関連論文リスト
- Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation [158.37640586809187]
劣化した画像を1つのモデルで効率的に復元することは、ますます重要になっている。
我々のアプローチはAnyIRと呼ばれ、様々な劣化にまたがる固有の類似性を活用する統一された経路をとっています。
劣化認識と文脈的注意を融合させるため,空間周波数並列融合戦略を提案する。
論文 参考訳(メタデータ) (2025-04-19T09:54:46Z) - Unified Human Localization and Trajectory Prediction with Monocular Vision [64.19384064365431]
MonoTransmotionはトランスフォーマーベースのフレームワークで、モノクロカメラのみを使用して、ローカライゼーションと予測タスクを共同で解決する。
両タスクを統合フレームワークで共同でトレーニングすることにより,ノイズの多い入力による実環境シナリオにおいて,我々の手法がより堅牢であることを示す。
論文 参考訳(メタデータ) (2025-03-05T14:18:39Z) - Without Paired Labeled Data: An End-to-End Self-Supervised Paradigm for UAV-View Geo-Localization [2.733505168507872]
UAV-View Geo-Localizationは、GPSタグ付き衛星画像を取得することで、UAVの正確な位置を確認することを目的としている。
既存の手法は、トレーニングのためにアノテーション付きペアデータを必要とする教師付き学習パラダイムに依存している。
本稿では,UAVビューのジオローカライゼーションのための軽量なエンドツーエンドの自己組織化フレームワークであるDynamic Memory-Driven and Neighborhood Information Learning Networkを提案する。
論文 参考訳(メタデータ) (2025-02-17T02:53:08Z) - FSD-BEV: Foreground Self-Distillation for Multi-view 3D Object Detection [33.225938984092274]
本稿では,分散の相違を効果的に回避するFSD方式を提案する。
また2つのポイントクラウド拡張(PCI)戦略を設計し、ポイントクラウドの幅を補う。
マルチスケール・フォアグラウンド・エンハンスメント(MSFE)モジュールを開発し,マルチスケール・フォアグラウンドの特徴を抽出・融合する。
論文 参考訳(メタデータ) (2024-07-14T09:39:44Z) - OverlapMamba: Novel Shift State Space Model for LiDAR-based Place Recognition [10.39935021754015]
位置認識のための新しいネットワークであるOverlapMambaを開発した。
本手法は,以前に訪れた場所を異なる方向から横断する場合でも,ループの閉鎖を効果的に検出する。
生のレンジビューの入力に基づいて、典型的なLiDARと複数ビューの組み合わせ法を時間的複雑さと速度で上回っている。
論文 参考訳(メタデータ) (2024-05-13T17:46:35Z) - UAVD4L: A Large-Scale Dataset for UAV 6-DoF Localization [14.87295056434887]
局所化のための大規模6-DoF UAVデータセット(UAVD4L)を提案する。
オフライン合成データ生成とオンラインビジュアルローカライゼーションからなる2段階6-DoFローカライゼーションパイプライン(UAVLoc)を開発した。
新しいデータセットの結果は,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2024-01-11T15:19:21Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - Fake It Till Make It: Federated Learning with Consensus-Oriented
Generation [52.82176415223988]
コンセンサス指向生成による連合学習(FedCOG)を提案する。
FedCOGは、補完的なデータ生成と知識蒸留に基づくモデルトレーニングという、クライアント側の2つの重要なコンポーネントで構成されています。
古典的および実世界のFLデータセットの実験は、FedCOGが一貫して最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2023-12-10T18:49:59Z) - The Unreasonable Effectiveness of Large Language-Vision Models for
Source-free Video Domain Adaptation [56.61543110071199]
Source-Free Video Unsupervised Domain Adaptation (SFVUDA)タスクは、ラベル付きソースデータセットでトレーニングされたアクション認識モデルを、ラベル付きターゲットデータセットに適応させることによって構成される。
従来のアプローチでは、ターゲットデータ自体から派生した自己スーパービジョンを活用してSFVUDAに対処しようと試みてきた。
我々は、LLVMがドメインシフトに対して驚くほど堅牢になる前に、リッチな世界を含むという理論によって、LLVM(Large Language-Vision Models)から"web-supervision"を利用するアプローチを取る。
論文 参考訳(メタデータ) (2023-08-17T18:12:05Z) - EgoVM: Achieving Precise Ego-Localization using Lightweight Vectorized
Maps [9.450650025266379]
本稿では,従来の最先端手法に匹敵するローカライズ精度を実現するエンド・ツー・エンドのローカライズネットワークであるEgoVMを提案する。
我々は、学習可能なセマンティック埋め込みを用いて、マップ要素のセマンティックタイプを符号化し、セマンティックセマンティックセグメンテーションでそれらを監督する。
本研究では,頑健なヒストグラムに基づくポーズ解法を用いて,候補ポーズを徹底的に探索することで最適なポーズを推定する。
論文 参考訳(メタデータ) (2023-07-18T06:07:25Z) - Domain-invariant Similarity Activation Map Contrastive Learning for
Retrieval-based Long-term Visual Localization [30.203072945001136]
本研究では,多領域画像変換による領域不変特徴抽出のために,確率論的に一般アーキテクチャを定式化する。
そして、より精密な局所化のために、新しい勾配重み付き類似性活性化写像損失(Grad-SAM)を組み込んだ。
CMUSeasonsデータセットにおける提案手法の有効性を検証するために大規模な実験が行われた。
我々の性能は、最先端のイメージベースのローカライゼーションベースラインを中あるいは高精度で上回るか、あるいは上回る。
論文 参考訳(メタデータ) (2020-09-16T14:43:22Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。