論文の概要: Hierarchical Image Matching for UAV Absolute Visual Localization via Semantic and Structural Constraints
- arxiv url: http://arxiv.org/abs/2506.09748v1
- Date: Wed, 11 Jun 2025 13:53:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.026085
- Title: Hierarchical Image Matching for UAV Absolute Visual Localization via Semantic and Structural Constraints
- Title(参考訳): 意味的・構造的制約によるUAV絶対視覚像定位のための階層的画像マッチング
- Authors: Xiangkai Zhang, Xiang Zhou, Mao Chen, Yuchen Lu, Xu Yang, Zhiyong Liu,
- Abstract要約: 無人航空機(UAV)には絶対的な位置決めが不可欠であるが、グローバルナビゲーション衛星システム(GNSS)信号が利用できない場合には困難である。
視線に基づく絶対的位置決め手法は、UAVの現在の視界を基準衛星マップで推定し、その位置を推定する手法として人気を博している。
既存の手法は主に従来の画像マッチングと低レベルの画像マッチングに依存しており、ソース間の相違や時間的変動による大きな違いによって困難に悩まされている。
セマンティック・アウェアと統合したUAV絶対位置推定のための階層的クロスソース画像マッチング手法を提案する。
- 参考スコア(独自算出の注目度): 10.639191465547517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Absolute localization, aiming to determine an agent's location with respect to a global reference, is crucial for unmanned aerial vehicles (UAVs) in various applications, but it becomes challenging when global navigation satellite system (GNSS) signals are unavailable. Vision-based absolute localization methods, which locate the current view of the UAV in a reference satellite map to estimate its position, have become popular in GNSS-denied scenarios. However, existing methods mostly rely on traditional and low-level image matching, suffering from difficulties due to significant differences introduced by cross-source discrepancies and temporal variations. To overcome these limitations, in this paper, we introduce a hierarchical cross-source image matching method designed for UAV absolute localization, which integrates a semantic-aware and structure-constrained coarse matching module with a lightweight fine-grained matching module. Specifically, in the coarse matching module, semantic features derived from a vision foundation model first establish region-level correspondences under semantic and structural constraints. Then, the fine-grained matching module is applied to extract fine features and establish pixel-level correspondences. Building upon this, a UAV absolute visual localization pipeline is constructed without any reliance on relative localization techniques, mainly by employing an image retrieval module before the proposed hierarchical image matching modules. Experimental evaluations on public benchmark datasets and a newly introduced CS-UAV dataset demonstrate superior accuracy and robustness of the proposed method under various challenging conditions, confirming its effectiveness.
- Abstract(参考訳): グローバルな参照に関してエージェントの位置を決定することを目的とした絶対的位置決めは、さまざまな用途において無人航空機(UAV)にとって重要であるが、グローバルナビゲーション衛星システム(GNSS)信号が利用できないと困難になる。
視線に基づく絶対位置決め手法は、現在のUAVの視界を基準衛星マップで推定して位置を推定する手法であり、GNSSのシナリオで人気がある。
しかし、既存の手法は従来の画像マッチングと低レベルの画像マッチングに大きく依存しており、ソース間の相違や時間的変動による大きな違いによる困難に悩まされている。
本稿では,UAV絶対局所化のための階層的クロスソース画像マッチング手法を提案する。
具体的には、粗いマッチングモジュールにおいて、視覚基盤モデルから派生した意味的特徴は、まず、意味的制約と構造的制約の下で領域レベルの対応を確立する。
そして、細粒度マッチングモジュールを適用して、微細な特徴を抽出し、画素レベルの対応を確立する。
これに基づいて、UAV絶対的な視覚的位置決めパイプラインは、相対的な位置決め技術に依存することなく構築され、主に、提案した階層画像マッチングモジュールの前に画像検索モジュールを使用する。
パブリックベンチマークデータセットとCS-UAVデータセットの実験的評価により,提案手法の様々な課題条件下での精度とロバスト性を向上し,その有効性を確認した。
関連論文リスト
- TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - Vision-Language Feature Alignment for Road Anomaly Segmentation [38.2615882515309]
本稿では,事前学習された視覚言語モデル(VLM)のセマンティクスを組み込んだ視覚言語異常セグメンテーションフレームワークを提案する。
具体的には,Mask2Formeの視覚的特徴を既知のカテゴリのCLIPテキスト埋め込みに適応させる,素早い学習駆動アライメントモジュールを設計する。
推論時に,テキスト誘導類似性,CLIPに基づく画像テキスト類似性,検出信頼度を統合したマルチソース推論戦略を導入する。
論文 参考訳(メタデータ) (2026-03-01T10:17:00Z) - CLNet: Cross-View Correspondence Makes a Stronger Geo-Localizationer [48.52152634356309]
本稿では,異なるビュー間の意味的および幾何学的ギャップを明示的に橋渡しする,CLNetと呼ばれる通信対応機能改善フレームワークを提案する。
CLNetはビューアライメントプロセスを3つの学習可能な補完モジュールに分解する。
提案するCLNetは、より優れた解釈性と一般化性を提供しながら、最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-12-16T16:31:41Z) - DiffusionUavLoc: Visually Prompted Diffusion for Cross-View UAV Localization [17.908597896653045]
DiffusionUavLocは画像プロンプト、テキストフリー、拡散中心のクロスビューローカライゼーションフレームワークで、統一表現にVAEを使用している。
まず,UAV画像から擬似サテライト画像を構造的プロンプトとして合成する。
推論時に、ディスクリプタは固定時間ステップtで計算され、コサイン類似度を用いて比較される。
論文 参考訳(メタデータ) (2025-11-09T15:27:17Z) - Object Detection as an Optional Basis: A Graph Matching Network for Cross-View UAV Localization [17.908597896653045]
本稿では,対象物検出によるマップマッチングを行うUAVローカライゼーションフレームワークを提案する。
典型的なパイプラインでは、UAVの視覚的ローカライゼーションは画像検索の問題として定式化されている。
本手法は, グラフベースノード類似度測定法を用いて, 高精度な検索とローカライズ性能を実現する。
論文 参考訳(メタデータ) (2025-11-04T11:25:31Z) - Towards Fine-Grained Vision-Language Alignment for Few-Shot Anomaly Detection [65.29550320117526]
我々はFinGrainedADという新しいフレームワークを提案し、異常なローカライゼーション性能を改善する。
実験により、提案されたFinGrainedADは、数ショット設定で全体的なパフォーマンスが優れていることが示された。
論文 参考訳(メタデータ) (2025-10-30T13:09:00Z) - Loc$^2$: Interpretable Cross-View Localization via Depth-Lifted Local Feature Matching [80.57282092735991]
本稿では,高精度かつ解釈可能なクロスビューローカライズ手法を提案する。
地上画像の3自由度(DoF)のポーズを、その局所的な特徴と基準空中画像とをマッチングすることによって推定する。
実験では、クロスエリアテストや未知の向きといった挑戦的なシナリオにおいて、最先端の精度を示す。
論文 参考訳(メタデータ) (2025-09-11T18:52:16Z) - Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。
従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。
本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-27T13:58:12Z) - Without Paired Labeled Data: End-to-End Self-Supervised Learning for Drone-view Geo-Localization [2.733505168507872]
ドローンビュージオローカライゼーション(DVGL)は、GPSタグ付き衛星画像を取得することで、ドローンの正確なローカライゼーションを実現することを目的としている。
既存の手法は、教師あり学習のために、厳密にペアリングされたドローン衛星画像に大きく依存している。
浅いバックボーンネットワークを用いたエンドツーエンドの自己教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T02:53:08Z) - Scale-wise Bidirectional Alignment Network for Referring Remote Sensing Image Segmentation [12.893224628061516]
リモートセンシング画像セグメンテーション(RRSIS)の目的は、自然言語表現を用いて、空中画像内の特定のピクセルレベル領域を抽出することである。
本稿では,これらの課題に対処するため,SBANet(Scale-wise Bidirectional Alignment Network)と呼ばれる革新的なフレームワークを提案する。
提案手法は,RRSIS-DとRefSegRSのデータセットにおける従来の最先端手法と比較して,優れた性能を実現する。
論文 参考訳(メタデータ) (2025-01-01T14:24:04Z) - StyDeSty: Min-Max Stylization and Destylization for Single Domain Generalization [85.18995948334592]
単一のドメインの一般化(単一DG)は、単一のトレーニングドメインからのみ見えないドメインに一般化可能な堅牢なモデルを学ぶことを目的としている。
最先端のアプローチは、主に新しいデータを合成するために、敵対的な摂動やスタイルの強化といったデータ拡張に頼っている。
データ拡張の過程で、ソースと擬似ドメインのアライメントを明示的に考慮したemphStyDeStyを提案する。
論文 参考訳(メタデータ) (2024-06-01T02:41:34Z) - Decomposition-based Unsupervised Domain Adaptation for Remote Sensing Image Semantic Segmentation [30.606689882397223]
非教師なし領域適応(UDA)技術は、地球科学のセマンティックセグメンテーションに不可欠である。
高レベルの特徴空間におけるドメインアライメントに焦点を当てた既存のUDA手法の多くは、局所的な空間的詳細とグローバルな文脈的意味論を同時に維持するのに苦労している。
ドメイン不変表現学習を導くための新しい分解手法を提案する。
論文 参考訳(メタデータ) (2024-04-06T07:13:49Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Spatial-Aware Token for Weakly Supervised Object Localization [137.0570026552845]
タスク固有の空間認識トークンを,弱教師付き方式で条件定位に提案する。
実験の結果、SATはCUB-200とImageNetの両方で、98.45%と73.13%のGT-known Locで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-03-18T15:38:17Z) - Beyond Cross-view Image Retrieval: Highly Accurate Vehicle Localization
Using Satellite Image [91.29546868637911]
本稿では,地上画像と架空衛星地図とをマッチングすることにより,車載カメラのローカライゼーションの問題に対処する。
鍵となる考え方は、タスクをポーズ推定として定式化し、ニューラルネットベースの最適化によってそれを解くことである。
標準自動運転車のローカライゼーションデータセットの実験により,提案手法の優位性が確認された。
論文 参考訳(メタデータ) (2022-04-10T19:16:58Z) - Co-visual pattern augmented generative transformer learning for
automobile geo-localization [12.449657263683337]
クロスビュージオローカライゼーション(CVGL)は、地上カメラの地理的位置を、巨大なジオタグ付き空中画像とマッチングすることによって推定することを目的としている。
CVGLのための相互生成型トランスフォーマー学習(MGTL)という,トランスフォーマーと組み合わせたクロスビュー知識生成技術を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T07:29:02Z) - Vision-Based UAV Self-Positioning in Low-Altitude Urban Environments [20.69412701553767]
無人航空機(UAV)は安定した位置決めのために衛星システムに依存している。
このような状況下では、視覚に基づく技術が代替手段として機能し、UAVの自己配置能力を確実にする。
本稿では,UAV自己配置タスク用に設計された最初の公開データセットであるDenseUAVを提案する。
論文 参考訳(メタデータ) (2022-01-23T07:18:55Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。