論文の概要: LoD-Loc v2: Aerial Visual Localization over Low Level-of-Detail City Models using Explicit Silhouette Alignment
- arxiv url: http://arxiv.org/abs/2507.00659v1
- Date: Tue, 01 Jul 2025 10:56:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.587654
- Title: LoD-Loc v2: Aerial Visual Localization over Low Level-of-Detail City Models using Explicit Silhouette Alignment
- Title(参考訳): LoD-Loc v2: 露骨なシルエットアライメントを用いた低レベルの都市モデル上の空中視覚的位置決め
- Authors: Juelin Zhu, Shuaibang Peng, Long Wang, Hanlin Tan, Yu Liu, Maojun Zhang, Shen Yan,
- Abstract要約: 本稿では,低レベル・オブ・ディテール(LoD)都市モデル上での航空視覚的位置決め手法を提案する。
LoD-Locは主に高LoDモデルに依存しているが、利用可能なモデルと多くの国が全国的に建設を計画しているのは低LoD(LoD1)である。
大気中の低LoD都市モデルに対する正確な位置決めを実現するために, 露骨なシルエットアライメントを用いた粗大な戦略を用いたLoD-Loc v2を導入する。
- 参考スコア(独自算出の注目度): 16.133812789068806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel method for aerial visual localization over low Level-of-Detail (LoD) city models. Previous wireframe-alignment-based method LoD-Loc has shown promising localization results leveraging LoD models. However, LoD-Loc mainly relies on high-LoD (LoD3 or LoD2) city models, but the majority of available models and those many countries plan to construct nationwide are low-LoD (LoD1). Consequently, enabling localization on low-LoD city models could unlock drones' potential for global urban localization. To address these issues, we introduce LoD-Loc v2, which employs a coarse-to-fine strategy using explicit silhouette alignment to achieve accurate localization over low-LoD city models in the air. Specifically, given a query image, LoD-Loc v2 first applies a building segmentation network to shape building silhouettes. Then, in the coarse pose selection stage, we construct a pose cost volume by uniformly sampling pose hypotheses around a prior pose to represent the pose probability distribution. Each cost of the volume measures the degree of alignment between the projected and predicted silhouettes. We select the pose with maximum value as the coarse pose. In the fine pose estimation stage, a particle filtering method incorporating a multi-beam tracking approach is used to efficiently explore the hypothesis space and obtain the final pose estimation. To further facilitate research in this field, we release two datasets with LoD1 city models covering 10.7 km , along with real RGB queries and ground-truth pose annotations. Experimental results show that LoD-Loc v2 improves estimation accuracy with high-LoD models and enables localization with low-LoD models for the first time. Moreover, it outperforms state-of-the-art baselines by large margins, even surpassing texture-model-based methods, and broadens the convergence basin to accommodate larger prior errors.
- Abstract(参考訳): 本稿では,低レベル・オブ・ディテール(LoD)都市モデル上での航空視覚的位置決め手法を提案する。
従来のワイヤフレームアライメントに基づくLoD-Locは,LoDモデルを利用した有望なローカライゼーション結果を示している。
しかし、LoD-Locは主に高LoD(LoD3またはLoD2)の都市モデルに依存している。
その結果、ローローダ都市モデルのローカライゼーションを可能にすることで、グローバルな都市ローカライゼーションのためのドローンの可能性を解き放つことができる。
これらの問題に対処するため,大気中の低LoD都市モデルに対する正確な位置決めを実現するために,明示的なシルエットアライメントを用いた粗大な戦略を用いたLoD-Loc v2を導入する。
特に、クエリ画像が与えられた場合、LoD-Loc v2はまず、ビルのシルエットを形作るためにビルのセグメンテーションネットワークを適用します。
そして、粗いポーズ選択段階において、ポーズ確率分布を表すために、前ポーズの周囲のポーズ仮説を均一にサンプリングすることにより、ポーズコストボリュームを構築する。
ボリュームのそれぞれのコストは、投影されたシルエットと予測されたシルエットのアライメントの度合いを測定する。
粗いポーズとして最大値のポーズを選択する。
ファインポーズ推定段階において、マルチビーム追跡手法を取り入れた粒子フィルタリング法を用いて仮説空間を効率的に探索し、最終的なポーズ推定を得る。
この分野でのさらなる研究を促進するために、我々は、実際のRGBクエリと接地トルースポーズアノテーションとともに、10.7kmをカバーするLoD1都市モデルを持つ2つのデータセットをリリースする。
実験結果から,LoD-Loc v2では高LoDモデルによる推定精度が向上し,低LoDモデルによるローカライズが可能となった。
さらに、テクスチャモデルに基づく手法を超越しても、最先端のベースラインを大きなマージンで上回り、より大きな事前エラーに対応するために収束盆地を広げる。
関連論文リスト
- Texture2LoD3: Enabling LoD3 Building Reconstruction With Panoramic Images [0.0]
Texture2LoD3では,3次元ビルディングモデルとパノラマストリートレベルの画像の両立を利用した新しい手法を提案する。
本手法がファサードセグメンテーション精度を11%向上させることを示した。
We believe that Texture2LoD3 can scale the adoption of LoD3 model, open application in the estimation building Solar potential or enhance autonomous driving simulations。
論文 参考訳(メタデータ) (2025-04-07T16:40:16Z) - LoRA vs Full Fine-tuning: An Illusion of Equivalence [76.11938177294178]
我々は,Low-Rank Adaptation (LoRA) とフルファインタニングによる事前学習モデルについて検討する。
特異値分解が全く異なる構造を示すLoRAおよび完全微調整収量行列が得られた。
我々は、LoRAが完全な微調整を忘れてはならないという発見を拡張し、その忘れ物は侵入者次元に大きく局所化されていることを発見した。
論文 参考訳(メタデータ) (2024-10-28T17:14:01Z) - LoD-Loc: Aerial Visual Localization using LoD 3D Map with Neural Wireframe Alignment [16.942854458136633]
複雑な3次元表現における視覚的局所化のための新しい手法を提案する。
既存のローカライゼーションアルゴリズムとは異なり、LevelDetail(LoD)3Dマップを用いて無人車両(UAV)のポーズを推定する。
論文 参考訳(メタデータ) (2024-10-16T06:09:27Z) - Analyzing the impact of semantic LoD3 building models on image-based vehicle localization [0.1398098625978622]
本稿では,高精細なセマンティック3Dビルディングモデルに対応する画像特徴を活かして,カーローカライズのための新しいアプローチを提案する。
この研究は、レベル・オブ・ディテール2(LoD2)とレベル・オブ・ディテール3(LoD3)モデルを用いて結果を評価し、ファサードに富んだモデルの方が精度が高いかどうかを分析する。
論文 参考訳(メタデータ) (2024-07-31T08:33:41Z) - Model Extrapolation Expedites Alignment [135.12769233630362]
本研究では,人選好によるアライメントトレーニングを迅速化するExPOという手法を提案する。
我々は、ExPOがトレーニングされたDPOモデルを20%のステップで強化し、完全に訓練されたモデルを上回ることを実証した。
ExPO は AlpacaEval 2.0 と MT-Bench ベンチマークにおいて,既存のオープンソース LLM を特に改善している。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - MLS2LoD3: Refining low LoDs building models with MLS point clouds to
reconstruct semantic LoD3 building models [3.2732273647357446]
そこで我々は,低LODビルディングモデルとMLS点雲の精度を両立させることにより,LoD3復元を可能にする新しい改良戦略を提案する。
本稿では,LoD3ファサード要素の再構成ガイドラインとCityGML標準モデルへの埋め込みについて述べる。
論文 参考訳(メタデータ) (2024-02-09T09:56:23Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Semi-supervised Learning from Street-View Images and OpenStreetMap for
Automatic Building Height Estimation [59.6553058160943]
本稿では,Mapillary SVIとOpenStreetMapのデータから建物の高さを自動的に推定する半教師付き学習(SSL)手法を提案する。
提案手法は, 平均絶対誤差(MAE)が約2.1mである建物の高さを推定する上で, 明らかな性能向上につながる。
予備結果は,低コストなVGIデータに基づく提案手法のスケールアップに向けた今後の取り組みを期待し,動機づけるものである。
論文 参考訳(メタデータ) (2023-07-05T18:16:30Z) - Visual Localization using Imperfect 3D Models from the Internet [54.731309449883284]
本稿では,3次元モデルにおける欠陥が局所化精度に与える影響について検討する。
インターネットから得られる3Dモデルは、容易に表現できるシーン表現として有望であることを示す。
論文 参考訳(メタデータ) (2023-04-12T16:15:05Z) - LiDAR-aid Inertial Poser: Large-scale Human Motion Capture by Sparse
Inertial and LiDAR Sensors [38.60837840737258]
本研究では,大規模なシナリオにおいて,高精度な局所的なポーズとグローバルな軌跡を持つ3次元人間の動きを捉えるためのマルチセンサ融合法を提案する。
我々は,2段階のポーズ推定器を粗大な方法で設計し,そこでは点雲が粗大な体形状を提供し,IMU測定は局所的な動作を最適化する。
我々は,LiDAR-IMUマルチモーダルモキャップデータセット(LIPD)を長期シナリオで収集する。
論文 参考訳(メタデータ) (2022-05-30T20:15:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。