論文の概要: Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition
- arxiv url: http://arxiv.org/abs/2506.14243v1
- Date: Tue, 17 Jun 2025 07:04:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.367186
- Title: Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition
- Title(参考訳): クロスモーダル幾何学的階層融合--レジリエントな3次元位置認識のための暗黙のサブマップ駆動フレームワーク
- Authors: Xiaohui Jiang, Haijiang Zhu, Chadei Li, Fulin Tang, Ning An,
- Abstract要約: 本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。
具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。
これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
- 参考スコア(独自算出の注目度): 4.196626042312499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LiDAR-based place recognition serves as a crucial enabler for long-term autonomy in robotics and autonomous driving systems. Yet, prevailing methodologies relying on handcrafted feature extraction face dual challenges: (1) Inconsistent point cloud density, induced by ego-motion dynamics and environmental disturbances during repeated traversals, leads to descriptor instability, and (2) Representation fragility stems from reliance on single-level geometric abstractions that lack discriminative power in structurally complex scenarios. To address these limitations, we propose a novel framework that redefines 3D place recognition through density-agnostic geometric reasoning. Specifically, we introduce an implicit 3D representation based on elastic points, which is immune to the interference of original scene point cloud density and achieves the characteristic of uniform distribution. Subsequently, we derive the occupancy grid and normal vector information of the scene from this implicit representation. Finally, with the aid of these two types of information, we obtain descriptors that fuse geometric information from both bird's-eye view (capturing macro-level spatial layouts) and 3D segment (encoding micro-scale surface geometries) perspectives. We conducted extensive experiments on numerous datasets (KITTI, KITTI-360, MulRan, NCLT) across diverse environments. The experimental results demonstrate that our method achieves state-of-the-art performance. Moreover, our approach strikes an optimal balance between accuracy, runtime, and memory optimization for historical maps, showcasing excellent Resilient and scalability. Our code will be open-sourced in the future.
- Abstract(参考訳): LiDARをベースとする位置認識は、ロボット工学や自律運転システムにおいて、長期的な自律性を実現する重要な手段となっている。
しかし, 手作業による特徴抽出に頼った手法では, 1) 複雑なシナリオにおいて識別力に欠ける単一レベルの幾何学的抽象化への依存から,(1) エゴモーションのダイナミックスや環境障害によって引き起こされる不整点雲密度は, 記述の不安定性を招き, (2) 表現の不安定性は, 構造的に複雑なシナリオにおいて, 識別力に欠ける単一レベルの幾何学的抽象化に起因している。
これらの制約に対処するため,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。
具体的には,元のシーンポイント雲密度の干渉に免疫し,一様分布の特性を実現する弾性点に基づく暗黙的な3次元表現を導入する。
その後、この暗黙の表現から、シーンの占有格子と通常のベクトル情報を導出する。
最後に,これらの2種類の情報を用いて,鳥眼ビュー(マクロレベルの空間配置をキャプチャする)と3次元セグメント(マイクロスケール表面ジオメトリをエンコードする)の両視点から幾何学的情報を融合する記述子を得る。
我々は,多様な環境における多数のデータセット(KITTI,KITTI-360,MulRan,NCLT)について広範な実験を行った。
実験により,本手法が最先端性能を実現することを示す。
さらに,本手法では,履歴マップの精度,実行時間,メモリ最適化のバランスを最適に保ち,優れたレジリエントとスケーラビリティを示す。
私たちのコードは将来的にはオープンソースになります。
関連論文リスト
- A Novel Convolution and Attention Mechanism-based Model for 6D Object Pose Estimation [49.1574468325115]
RGB画像から6Dオブジェクトのポーズを推定することは、深度情報の欠如が2次元投影から3次元構造を推定する必要があるため困難である。
従来の手法はグリッドベースのデータ構造によるディープラーニングに頼っていることが多いが、抽出された機能間の複雑な依存関係を捉えるのに苦労している。
本稿では,各画素の時間的特徴がノードとして機能し,それらの関係はノード接続や空間的相互作用を通じて定義される,画像から直接のグラフベース表現を提案する。
論文 参考訳(メタデータ) (2024-12-31T18:47:54Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - Normal Transformer: Extracting Surface Geometry from LiDAR Points Enhanced by Visual Semantics [7.507853813361308]
本稿では,LiDARとカメラセンサから得られた3次元点雲と2次元カラー画像を利用して表面正規化を行うマルチモーダル手法を提案する。
本稿では,視覚的意味論と3次元幾何学的情報を巧みに融合した,トランスフォーマーに基づくニューラルネットワークアーキテクチャを提案する。
交通シーンを模倣したシミュレーション3D環境から,提案モデルが学習可能であることが確認された。
論文 参考訳(メタデータ) (2022-11-19T03:55:09Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Self-supervised Depth Estimation Leveraging Global Perception and
Geometric Smoothness Using On-board Videos [0.5276232626689566]
我々は,グローバルな特徴と局所的な特徴を同時に抽出する画素ワイド深度推定のためのDLNetを提案する。
幾何学的に自然な深度マップを予測するために3次元形状の滑らかさ損失を提案する。
KITTIとMake3Dベンチマークの実験では、提案したDLNetは最先端の手法と競合する性能を実現している。
論文 参考訳(メタデータ) (2021-06-07T10:53:27Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR
Segmentation [81.02742110604161]
大規模運転シーンのLiDARセグメンテーションのための最先端の手法は、しばしば点雲を2次元空間に投影し、2D畳み込みによって処理する。
そこで我々は,3次元幾何学的パタンを探索するために,円筒分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
提案手法はセマンティックKITTIのリーダーボードにおいて第1位を獲得し,既存のnuScenesの手法を約4%のマージンで上回っている。
論文 参考訳(メタデータ) (2020-11-19T18:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。