論文の概要: DiffusionUavLoc: Visually Prompted Diffusion for Cross-View UAV Localization
- arxiv url: http://arxiv.org/abs/2511.06422v1
- Date: Sun, 09 Nov 2025 15:27:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.935649
- Title: DiffusionUavLoc: Visually Prompted Diffusion for Cross-View UAV Localization
- Title(参考訳): DiffusionUavLoc: クロスビューUAVローカライゼーションのための視覚的プロンプト拡散
- Authors: Tao Liu, Kan Ren, Qian Chen,
- Abstract要約: DiffusionUavLocは画像プロンプト、テキストフリー、拡散中心のクロスビューローカライゼーションフレームワークで、統一表現にVAEを使用している。
まず,UAV画像から擬似サテライト画像を構造的プロンプトとして合成する。
推論時に、ディスクリプタは固定時間ステップtで計算され、コサイン類似度を用いて比較される。
- 参考スコア(独自算出の注目度): 17.908597896653045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid growth of the low-altitude economy, unmanned aerial vehicles (UAVs) have become key platforms for measurement and tracking in intelligent patrol systems. However, in GNSS-denied environments, localization schemes that rely solely on satellite signals are prone to failure. Cross-view image retrieval-based localization is a promising alternative, yet substantial geometric and appearance domain gaps exist between oblique UAV views and nadir satellite orthophotos. Moreover, conventional approaches often depend on complex network architectures, text prompts, or large amounts of annotation, which hinders generalization. To address these issues, we propose DiffusionUavLoc, a cross-view localization framework that is image-prompted, text-free, diffusion-centric, and employs a VAE for unified representation. We first use training-free geometric rendering to synthesize pseudo-satellite images from UAV imagery as structural prompts. We then design a text-free conditional diffusion model that fuses multimodal structural cues to learn features robust to viewpoint changes. At inference, descriptors are computed at a fixed time step t and compared using cosine similarity. On University-1652 and SUES-200, the method performs competitively for cross-view localization, especially for satellite-to-drone in University-1652.Our data and code will be published at the following URL: https://github.com/liutao23/DiffusionUavLoc.git.
- Abstract(参考訳): 低高度経済の急速な成長に伴い、無人航空機(UAV)はインテリジェントパトロールシステムにおける計測と追跡の重要なプラットフォームとなっている。
しかし、GNSSによる環境においては、衛星信号のみに依存するローカライズ方式は失敗しがちである。
クロスビュー画像検索に基づくローカライゼーションは有望な代替手段であるが、斜めのUAVビューとナディル衛星写真の間には相当な幾何学的領域と外観的領域のギャップが存在する。
さらに、従来のアプローチは複雑なネットワークアーキテクチャ、テキストプロンプト、あるいは大量のアノテーションに依存しており、一般化を妨げている。
これらの問題に対処するために、DiffusionUavLocを提案する。DiffusionUavLocは画像プロンプト、テキストフリー、拡散中心のクロスビューローカライゼーションフレームワークで、統一表現にVAEを用いる。
まず,UAV画像から擬似サテライト画像を構造的プロンプトとして合成する。
次に,多モーダルな構造的手がかりを融合したテキスト自由条件拡散モデルを構築し,視点変化に頑健な特徴を学習する。
推論時に、ディスクリプタは固定時間ステップtで計算され、コサイン類似度を用いて比較される。
University-1652 と SUES-200 では、特にUniversity-1652 の衛星間ローカライゼーションにおいて、クロスビューローカライゼーションのために競合的に動作する。
関連論文リスト
- Object Detection as an Optional Basis: A Graph Matching Network for Cross-View UAV Localization [17.908597896653045]
本稿では,対象物検出によるマップマッチングを行うUAVローカライゼーションフレームワークを提案する。
典型的なパイプラインでは、UAVの視覚的ローカライゼーションは画像検索の問題として定式化されている。
本手法は, グラフベースノード類似度測定法を用いて, 高精度な検索とローカライズ性能を実現する。
論文 参考訳(メタデータ) (2025-11-04T11:25:31Z) - Cross-View Open-Vocabulary Object Detection in Aerial Imagery [48.851422992413184]
本研究では,地上画像からオープン語彙表現を適応させる新しい枠組みを提案し,空中画像における物体検出の課題を解決した。
コントラスト画像と画像のアライメントを導入し、空中と地上の埋め込みの類似性を高める。
我々のオープン語彙モデルは、DOTAv2上の+6.32 mAP、VisDrone上の+4.16 mAP、ゼロショット設定時のHRRSD上の+3.46 mAPの改善を実現する。
論文 参考訳(メタデータ) (2025-10-04T16:12:03Z) - Loc$^2$: Interpretable Cross-View Localization via Depth-Lifted Local Feature Matching [80.57282092735991]
本稿では,高精度かつ解釈可能なクロスビューローカライズ手法を提案する。
地上画像の3自由度(DoF)のポーズを、その局所的な特徴と基準空中画像とをマッチングすることによって推定する。
実験では、クロスエリアテストや未知の向きといった挑戦的なシナリオにおいて、最先端の精度を示す。
論文 参考訳(メタデータ) (2025-09-11T18:52:16Z) - Hierarchical Image Matching for UAV Absolute Visual Localization via Semantic and Structural Constraints [10.639191465547517]
無人航空機(UAV)には絶対的な位置決めが不可欠であるが、グローバルナビゲーション衛星システム(GNSS)信号が利用できない場合には困難である。
視線に基づく絶対的位置決め手法は、UAVの現在の視界を基準衛星マップで推定し、その位置を推定する手法として人気を博している。
既存の手法は主に従来の画像マッチングと低レベルの画像マッチングに依存しており、ソース間の相違や時間的変動による大きな違いによって困難に悩まされている。
セマンティック・アウェアと統合したUAV絶対位置推定のための階層的クロスソース画像マッチング手法を提案する。
論文 参考訳(メタデータ) (2025-06-11T13:53:03Z) - AeroReformer: Aerial Referring Transformer for UAV-based Referring Image Segmentation [9.55871636831991]
本稿では,UAV参照画像セグメンテーション(UAV-RIS)のための新しいフレームワークを提案する。
AeroReformerは、効果的なクロスモーダル理解のためのVision-Language Cross-Attention Module (VLCAM)とローテーション対応のマルチスケール核融合デコーダを備えている。
新たに開発された2つのデータセットの実験は、既存の方法よりもAeroReformerの方が優れていることを示している。
論文 参考訳(メタデータ) (2025-02-23T18:49:00Z) - View Distribution Alignment with Progressive Adversarial Learning for
UAV Visual Geo-Localization [10.442998017077795]
無人航空機(UAV)の視覚的ジオローカライゼーションは、異なるビュー、すなわちUAVビューと衛星ビューから取得した同じ地理的ターゲットの画像とマッチングすることを目的としている。
以前の作業では、UAVや衛星が撮影した画像を共有特徴空間にマッピングし、位置に依存した特徴を学習するための分類フレームワークを使用していた。
本稿では,2つのビューの分布アライメントを導入し,共通空間における距離を短縮する。
論文 参考訳(メタデータ) (2024-01-03T06:58:09Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - DiffusionSat: A Generative Foundation Model for Satellite Imagery [63.2807119794691]
現在、DiffusionSatは、現在利用可能な大規模な高解像度リモートセンシングデータセットのコレクションに基づいてトレーニングされている、最大の生成基盤モデルである。
提案手法は, リアルタイムなサンプルを作成し, 時間生成, マルチスペクトル入力の超解像, インペイントなどの複数の生成課題を解くのに利用できる。
論文 参考訳(メタデータ) (2023-12-06T16:53:17Z) - iSDF: Real-Time Neural Signed Distance Fields for Robot Perception [64.80458128766254]
iSDFは実時間符号付き距離場再構成のための連続学習システムである。
より正確な再構築と、衝突コストと勾配のより良い近似を生成する。
論文 参考訳(メタデータ) (2022-04-05T15:48:39Z) - Vision-Based UAV Self-Positioning in Low-Altitude Urban Environments [20.69412701553767]
無人航空機(UAV)は安定した位置決めのために衛星システムに依存している。
このような状況下では、視覚に基づく技術が代替手段として機能し、UAVの自己配置能力を確実にする。
本稿では,UAV自己配置タスク用に設計された最初の公開データセットであるDenseUAVを提案する。
論文 参考訳(メタデータ) (2022-01-23T07:18:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。