論文の概要: LoD-Loc v3: Generalized Aerial Localization in Dense Cities using Instance Silhouette Alignment
- arxiv url: http://arxiv.org/abs/2603.19609v2
- Date: Tue, 24 Mar 2026 12:24:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 12:42:17.578902
- Title: LoD-Loc v3: Generalized Aerial Localization in Dense Cities using Instance Silhouette Alignment
- Title(参考訳): LoD-Loc v3: インスタンスシルエットアライメントを用いた高密度都市の航空局地化
- Authors: Shuaibang Peng, Juelin Zhu, Xia Li, Kun Yang, Maojun Zhang, Yu Liu, Shen Yan,
- Abstract要約: 本稿では,高密度都市環境における空間的局所化を一般化する新しい手法であるLoD-Loc v3を提案する。
InsLoD-Loc - 航空画像のための最大インスタンスセグメンテーションデータセット。
局所化パラダイムをセマンティックからインスタンスシルエットアライメントにシフトすることで再構築し、密集したシーンにおけるポーズ推定のあいまいさを著しく低減する。
- 参考スコア(独自算出の注目度): 27.863242898871963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present LoD-Loc v3, a novel method for generalized aerial visual localization in dense urban environments. While prior work LoD-Loc v2 achieves localization through semantic building silhouette alignment with low-detail city models, it suffers from two key limitations: poor cross-scene generalization and frequent failure in dense building scenes. Our method addresses these challenges through two key innovations. First, we develop a new synthetic data generation pipeline that produces InsLoD-Loc - the largest instance segmentation dataset for aerial imagery to date, comprising 100k images with precise instance building annotations. This enables trained models to exhibit remarkable zero-shot generalization capability. Second, we reformulate the localization paradigm by shifting from semantic to instance silhouette alignment, which significantly reduces pose estimation ambiguity in dense scenes. Extensive experiments demonstrate that LoD-Loc v3 outperforms existing state-of-the-art (SOTA) baselines, achieving superior performance in both cross-scene and dense urban scenarios with a large margin. The project is available at https://nudt-sawlab.github.io/LoD-Locv3/.
- Abstract(参考訳): 本稿では,高密度都市環境における空間的局所化を一般化する新しい手法であるLoD-Loc v3を提案する。
先行研究であるLoD-Loc v2は、低詳細都市モデルとのセマンティックビルディングシルエットアライメントによるローカライゼーションを実現する一方で、低シーンの一般化と密集ビルディングシーンにおける頻繁な失敗という2つの重要な制限に悩まされている。
我々の手法は2つの重要な革新を通じてこれらの課題に対処する。
InsLoD-Loc - 航空画像のための最大インスタンスセグメンテーションデータセットで、100kの画像と正確なインスタンス構築アノテーションを含む。
これにより、訓練されたモデルは、顕著なゼロショットの一般化能力を示すことができる。
第2に、セマンティックからインスタンスシルエットアライメントにシフトすることで、局所化パラダイムを再構築し、密集したシーンにおけるポーズ推定のあいまいさを著しく低減する。
大規模な実験により、LoD-Loc v3は既存の最先端(SOTA)ベースラインよりも優れており、高いマージンを有するクロスシーンと高密度の都市シナリオの両方で優れた性能を発揮することが示された。
このプロジェクトはhttps://nudt-sawlab.github.io/LoD-Locv3/で公開されている。
関連論文リスト
- Sat2City: 3D City Generation from A Single Satellite Image with Cascaded Latent Diffusion [18.943643720564996]
Sat2Cityは、スパースボクセルグリッドの表現能力を潜在拡散モデルと相乗化する新しいフレームワークである。
衛星視高マップと組み合わせた大規模3D都市を合成したデータセットを提案する。
本フレームワークは, 衛星画像から詳細な3次元構造を生成し, 既存の都市モデルに比べ, 忠実度に優れていた。
論文 参考訳(メタデータ) (2025-07-06T14:30:08Z) - LoD-Loc v2: Aerial Visual Localization over Low Level-of-Detail City Models using Explicit Silhouette Alignment [16.133812789068806]
本稿では,低レベル・オブ・ディテール(LoD)都市モデル上での航空視覚的位置決め手法を提案する。
LoD-Locは主に高LoDモデルに依存しているが、利用可能なモデルと多くの国が全国的に建設を計画しているのは低LoD(LoD1)である。
大気中の低LoD都市モデルに対する正確な位置決めを実現するために, 露骨なシルエットアライメントを用いた粗大な戦略を用いたLoD-Loc v2を導入する。
論文 参考訳(メタデータ) (2025-07-01T10:56:51Z) - Intern-GS: Vision Model Guided Sparse-View 3D Gaussian Splatting [95.61137026932062]
Intern-GSはスパースビューガウススプラッティングのプロセスを強化する新しいアプローチである。
Intern-GSは多様なデータセットにまたがって最先端のレンダリング品質を実現する。
論文 参考訳(メタデータ) (2025-05-27T05:17:49Z) - LoD-Loc: Aerial Visual Localization using LoD 3D Map with Neural Wireframe Alignment [16.942854458136633]
複雑な3次元表現における視覚的局所化のための新しい手法を提案する。
既存のローカライゼーションアルゴリズムとは異なり、LevelDetail(LoD)3Dマップを用いて無人車両(UAV)のポーズを推定する。
論文 参考訳(メタデータ) (2024-10-16T06:09:27Z) - MegaScenes: Scene-Level View Synthesis at Scale [69.21293001231993]
NVS (Scene-level novel view synthesis) は多くの視覚やグラフィックスの応用に基礎を置いている。
MegaScenesと呼ばれるインターネット写真コレクションから大規模なシーンレベルのデータセットを作成し、世界中の動き(SfM)から100K以上の構造を復元する。
我々は、最先端NVS手法の故障事例を分析し、生成一貫性を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-17T17:55:55Z) - Dynamic 3D Gaussian Fields for Urban Areas [60.64840836584623]
大規模でダイナミックな都市部における新規ビュー合成(NVS)のための効率的なニューラル3Dシーン表現法を提案する。
本研究では,大規模都市にスケールするニューラルネットワークシーン表現である4DGFを提案する。
論文 参考訳(メタデータ) (2024-06-05T12:07:39Z) - ViiNeuS: Volumetric Initialization for Implicit Neural Surface reconstruction of urban scenes with limited image overlap [4.216707699421813]
ViiNeuSは、符号付き距離場を効率よく初期化する、新しいハイブリッドな暗黙曲面学習法である。
ViiNeuSは、訓練の2倍の速さで、様々な都市景観の正確な3次元表面表現を学習できることを示す。
論文 参考訳(メタデータ) (2024-03-15T14:31:17Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。