論文の概要: PiLoT: Neural Pixel-to-3D Registration for UAV-based Ego and Target Geo-localization
- arxiv url: http://arxiv.org/abs/2603.20778v2
- Date: Tue, 24 Mar 2026 02:44:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 12:42:17.591026
- Title: PiLoT: Neural Pixel-to-3D Registration for UAV-based Ego and Target Geo-localization
- Title(参考訳): PiLoT:UAVベースのEgoとターゲットの地理的ローカライゼーションのためのニューラルPixel-to-3Dレジストレーション
- Authors: Xiaoya Cheng, Long Wang, Yan Liu, Xinyi Liu, Hanlin Tan, Yu Liu, Maojun Zhang, Shen Yan,
- Abstract要約: 我々は、UAVベースのエゴに取り組み、地理的ローカライゼーションをターゲットとする統合フレームワークPiLoTを提案する。
1)コアローカライゼーションスレッドからマップレンダリングを分離し、低レイテンシとドリフトフリーの精度を保証するデュアルスレッドエンジン。
このデータセットは、シミュレーションから実データへのゼロショット方式で一般化する軽量ネットワークのトレーニングを可能にする。
- 参考スコア(独自算出の注目度): 26.426290913965456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present PiLoT, a unified framework that tackles UAV-based ego and target geo-localization. Conventional approaches rely on decoupled pipelines that fuse GNSS and Visual-Inertial Odometry (VIO) for ego-pose estimation, and active sensors like laser rangefinders for target localization. However, these methods are susceptible to failure in GNSS-denied environments and incur substantial hardware costs and complexity. PiLoT breaks this paradigm by directly registering live video stream against a geo-referenced 3D map. To achieve robust, accurate, and real-time performance, we introduce three key contributions: 1) a Dual-Thread Engine that decouples map rendering from core localization thread, ensuring both low latency while maintaining drift-free accuracy; 2) a large-scale synthetic dataset with precise geometric annotations (camera pose, depth maps). This dataset enables the training of a lightweight network that generalizes in a zero-shot manner from simulation to real data; and 3) a Joint Neural-Guided Stochastic-Gradient Optimizer (JNGO) that achieves robust convergence even under aggressive motion. Evaluations on a comprehensive set of public and newly collected benchmarks show that PiLoT outperforms state-of-the-art methods while running over 25 FPS on NVIDIA Jetson Orin platform. Our code and dataset is available at: https://github.com/Choyaa/PiLoT.
- Abstract(参考訳): 我々は、UAVベースのエゴに取り組み、地理的ローカライゼーションをターゲットとする統合フレームワークPiLoTを提案する。
従来のアプローチでは、目標位置推定のためにGNSSと視覚慣性オドメトリー(VIO)を融合する分離パイプラインと、目標位置推定のためのレーザーレンジファインダーのようなアクティブセンサーに依存していた。
しかし、これらの手法は、GNSSが定義した環境で失敗し、相当なハードウェアコストと複雑さを引き起こす可能性がある。
PiLoTはこのパラダイムを破り、地理的に参照された3Dマップに対してライブビデオストリームを直接登録する。
堅牢で正確でリアルタイムなパフォーマンスを実現するために、私たちは3つの重要なコントリビューションを紹介します。
1) コアローカライゼーションスレッドからマップレンダリングを分離し、ドリフトフリーの精度を維持しながら低レイテンシを両立させるデュアルスレッドエンジン。
2)精密な幾何学的アノテーション(カメラポーズ,深度マップ)を備えた大規模合成データセット。
このデータセットは、シミュレーションから実データへのゼロショット方式で一般化する軽量ネットワークのトレーニングを可能にする。
3) 攻撃的動作下においても頑健な収束を実現するJNGO(Joint Neural-Guided Stochastic-Gradient Optimizer)。
包括的な公開ベンチマークと新たに収集されたベンチマークによる評価によると、PiLoTはNVIDIA Jetson Orinプラットフォーム上で25FPS以上を実行しながら、最先端のメソッドを上回っている。
私たちのコードとデータセットは、https://github.com/Choyaa/PiLoT.comで公開されています。
関連論文リスト
- Hi^2-GSLoc: Dual-Hierarchical Gaussian-Specific Visual Relocalization for Remote Sensing [6.997091164331322]
リモートセンシングやUAVアプリケーションには、視覚的再ローカライゼーションが不可欠である。
画像に基づく検索とポーズ回帰アプローチは精度に欠ける。
スパース・トゥ・デンス(sparse-to-dense)と粗粒度(arse-to-fine)のパラダイムに従う二重階層的再ローカライゼーションフレームワークである$mathrmHi2$-GSLocを紹介した。
論文 参考訳(メタデータ) (2025-07-21T14:47:56Z) - UAVD4L: A Large-Scale Dataset for UAV 6-DoF Localization [14.87295056434887]
局所化のための大規模6-DoF UAVデータセット(UAVD4L)を提案する。
オフライン合成データ生成とオンラインビジュアルローカライゼーションからなる2段階6-DoFローカライゼーションパイプライン(UAVLoc)を開発した。
新しいデータセットの結果は,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2024-01-11T15:19:21Z) - V-DETR: DETR with Vertex Relative Position Encoding for 3D Object
Detection [73.37781484123536]
DETRフレームワークを用いた点雲のための高性能な3次元物体検出器を提案する。
限界に対処するため,新しい3次元相対位置(3DV-RPE)法を提案する。
挑戦的なScanNetV2ベンチマークで例外的な結果を示す。
論文 参考訳(メタデータ) (2023-08-08T17:14:14Z) - DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-01-15T09:31:58Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - BEVDetNet: Bird's Eye View LiDAR Point Cloud based Real-time 3D Object
Detection for Autonomous Driving [6.389322215324224]
キーポイント,ボックス予測,方向予測を用いたオブジェクト中心検出のための単一統一モデルとして,新しいセマンティックセマンティックセマンティクスアーキテクチャを提案する。
提案されたアーキテクチャは簡単に拡張でき、追加の計算なしで Road のようなセマンティックセグメンテーションクラスを含めることができる。
モデルは、KITTIデータセット上のIoU=0.5の平均精度で2%の最小精度の劣化で、他のトップ精度モデルよりも5倍高速です。
論文 参考訳(メタデータ) (2021-04-21T22:06:39Z) - H3D: Benchmark on Semantic Segmentation of High-Resolution 3D Point
Clouds and textured Meshes from UAV LiDAR and Multi-View-Stereo [4.263987603222371]
本稿では,3つの方法でユニークな3次元データセットを提案する。
ヘシグハイム(ドイツ語: Hessigheim, H3D)は、ドイツの都市。
片手で3次元データ分析の分野での研究を促進するとともに、新しいアプローチの評価とランク付けを目的としている。
論文 参考訳(メタデータ) (2021-02-10T09:33:48Z) - Local Grid Rendering Networks for 3D Object Detection in Point Clouds [98.02655863113154]
CNNは強力だが、全点の雲を高密度の3Dグリッドに酸化した後、点データに直接畳み込みを適用するのは計算コストがかかる。
入力点のサブセットの小さな近傍を低解像度の3Dグリッドに独立してレンダリングする,新しい,原理化されたローカルグリッドレンダリング(LGR)演算を提案する。
ScanNetとSUN RGB-Dデータセットを用いた3次元オブジェクト検出のためのLGR-Netを検証する。
論文 参考訳(メタデータ) (2020-07-04T13:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。