論文の概要: LoD-Loc: Aerial Visual Localization using LoD 3D Map with Neural Wireframe Alignment
- arxiv url: http://arxiv.org/abs/2410.12269v1
- Date: Wed, 16 Oct 2024 06:09:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:42:18.779147
- Title: LoD-Loc: Aerial Visual Localization using LoD 3D Map with Neural Wireframe Alignment
- Title(参考訳): LoD-Loc: ニューラルワイヤフレームアライメントを用いたLoD 3Dマップによる空中視覚像定位
- Authors: Juelin Zhu, Shen Yan, Long Wang, Shengyue Zhang, Yu Liu, Maojun Zhang,
- Abstract要約: 複雑な3次元表現における視覚的局所化のための新しい手法を提案する。
既存のローカライゼーションアルゴリズムとは異なり、LevelDetail(LoD)3Dマップを用いて無人車両(UAV)のポーズを推定する。
- 参考スコア(独自算出の注目度): 16.942854458136633
- License:
- Abstract: We propose a new method named LoD-Loc for visual localization in the air. Unlike existing localization algorithms, LoD-Loc does not rely on complex 3D representations and can estimate the pose of an Unmanned Aerial Vehicle (UAV) using a Level-of-Detail (LoD) 3D map. LoD-Loc mainly achieves this goal by aligning the wireframe derived from the LoD projected model with that predicted by the neural network. Specifically, given a coarse pose provided by the UAV sensor, LoD-Loc hierarchically builds a cost volume for uniformly sampled pose hypotheses to describe pose probability distribution and select a pose with maximum probability. Each cost within this volume measures the degree of line alignment between projected and predicted wireframes. LoD-Loc also devises a 6-DoF pose optimization algorithm to refine the previous result with a differentiable Gaussian-Newton method. As no public dataset exists for the studied problem, we collect two datasets with map levels of LoD3.0 and LoD2.0, along with real RGB queries and ground-truth pose annotations. We benchmark our method and demonstrate that LoD-Loc achieves excellent performance, even surpassing current state-of-the-art methods that use textured 3D models for localization. The code and dataset are available at https://victorzoo.github.io/LoD-Loc.github.io/.
- Abstract(参考訳): 大気中の視覚的位置決めのためのLoD-Locという新しい手法を提案する。
既存のローカライゼーションアルゴリズムとは異なり、LoD-Locは複雑な3D表現に依存しておらず、Level-of-Detail (LoD) 3Dマップを使用して無人航空機(UAV)のポーズを推定することができる。
LoD-Locは主に、LoDプロジェクションモデルに由来するワイヤフレームとニューラルネットワークによって予測されるワイヤフレームを整合させることで、この目標を達成する。
特に、UAVセンサによって提供される粗いポーズが与えられた場合、LoD-Locは、一様サンプリングされたポーズ仮説のためのコストボリュームを構築して、ポーズ確率分布を記述し、最大確率のポーズを選択する。
このボリューム内の各コストは、投影されたワイヤフレームと予測されたワイヤフレームの間のラインアライメントの度合いを測定する。
LoD-Locはまた、6-DoFポーズ最適化アルゴリズムを考案し、ガウスニュートン法を微分可能とした。
研究対象の公開データセットは存在しないため,マップレベルがLoD3.0とLoD2.0の2つのデータセットと,実際のRGBクエリと地味なポーズアノテーションを収集する。
提案手法をベンチマークし, 局所化にテクスチャ化された3Dモデルを用いた最先端の手法を超越しても, LoD-Loc が優れた性能を発揮することを示す。
コードとデータセットはhttps://victorzoo.github.io/LoD-Loc.github.io/で公開されている。
関連論文リスト
- SplatLoc: 3D Gaussian Splatting-based Visual Localization for Augmented Reality [50.179377002092416]
より少ないパラメータで高品質なレンダリングが可能な効率的なビジュアルローカライズ手法を提案する。
提案手法は,最先端の暗黙的視覚的ローカライゼーションアプローチに対して,より優れた,あるいは同等なレンダリングとローカライゼーション性能を実現する。
論文 参考訳(メタデータ) (2024-09-21T08:46:16Z) - Scan2LoD3: Reconstructing semantic 3D building models at LoD3 using ray
casting and Bayesian networks [40.7734793392562]
詳細レベル(LoD)3でセマンティックな3Dビルディングモデルを再構築することは、長年にわたる課題である。
セマンティックなLoD3構築モデルを正確に再構築する新しい手法であるScan2LoD3を提案する。
提案手法は,LoD3における確率駆動型セマンティック3次元再構成の開発を促進できると考えている。
論文 参考訳(メタデータ) (2023-05-10T17:01:18Z) - Neural Voting Field for Camera-Space 3D Hand Pose Estimation [106.34750803910714]
3次元暗黙表現に基づく1枚のRGB画像からカメラ空間の3Dハンドポーズ推定のための統一的なフレームワークを提案する。
本稿では,カメラフラストラムにおける高密度3次元ポイントワイド投票により,カメラ空間の3次元ハンドポーズを推定する,新しい3次元高密度回帰手法を提案する。
論文 参考訳(メタデータ) (2023-05-07T16:51:34Z) - Occ3D: A Large-Scale 3D Occupancy Prediction Benchmark for Autonomous
Driving [34.368848580725576]
我々は,任意のシーンに対して,濃密で可視性に配慮したラベルを生成するラベル生成パイプラインを開発した。
このパイプラインは、ボクセルの密度化、推論、画像誘導ボクセル精製の3段階からなる。
我々は、Occ3Dベンチマークにおいて優れた性能を示すCTF-Occネットワークと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2023-04-27T17:40:08Z) - LocPoseNet: Robust Location Prior for Unseen Object Pose Estimation [69.70498875887611]
LocPoseNetは、見えないオブジェクトに先立って、ロバストにロケーションを学習することができる。
提案手法は,LINEMOD と GenMOP において,既存の作業よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-29T15:21:34Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - OSOP: A Multi-Stage One Shot Object Pose Estimation Framework [35.89334617258322]
対象物検出のための新しいワンショット手法と,対象物に対する訓練を必要としない6DoFポーズ推定を提案する。
テスト時には、ターゲット画像とテクスチャ化された3Dクエリモデルを入力する。
The method on LineMOD, Occlusion, Homebrewed, YCB-V and TLESS datasets。
論文 参考訳(メタデータ) (2022-03-29T13:12:00Z) - FCAF3D: Fully Convolutional Anchor-Free 3D Object Detection [3.330229314824913]
FCAF3D - 完全畳み込み型アンカーフリー屋内3D物体検出法を提案する。
これは、点雲のボクセル表現を使用し、スパース畳み込みでボクセルを処理する、単純で効果的な方法である。
単一の完全な畳み込みフィードフォワードパスを通じて、最小限のランタイムで大規模シーンを処理できる。
論文 参考訳(メタデータ) (2021-12-01T07:28:52Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z) - DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes [54.239416488865565]
LIDARデータに対する高速な1段3次元物体検出法を提案する。
我々の手法の中核となる新規性は高速かつシングルパスアーキテクチャであり、どちらも3次元の物体を検出し、それらの形状を推定する。
提案手法は,ScanNetシーンのオブジェクト検出で5%,オープンデータセットでは3.4%の精度で結果が得られた。
論文 参考訳(メタデータ) (2020-04-02T17:48:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。