Fugu-MT 論文翻訳(概要): Hierarchical Image Matching for UAV Absolute Visual Localization via Semantic and Structural Constraints

論文の概要: Hierarchical Image Matching for UAV Absolute Visual Localization via Semantic and Structural Constraints

arxiv url: http://arxiv.org/abs/2506.09748v1
Date: Wed, 11 Jun 2025 13:53:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 06:35:03.026085
Title: Hierarchical Image Matching for UAV Absolute Visual Localization via Semantic and Structural Constraints
Title（参考訳）: 意味的・構造的制約によるUAV絶対視覚像定位のための階層的画像マッチング
Authors: Xiangkai Zhang, Xiang Zhou, Mao Chen, Yuchen Lu, Xu Yang, Zhiyong Liu,
Abstract要約: 無人航空機(UAV)には絶対的な位置決めが不可欠であるが、グローバルナビゲーション衛星システム(GNSS)信号が利用できない場合には困難である。視線に基づく絶対的位置決め手法は、UAVの現在の視界を基準衛星マップで推定し、その位置を推定する手法として人気を博している。既存の手法は主に従来の画像マッチングと低レベルの画像マッチングに依存しており、ソース間の相違や時間的変動による大きな違いによって困難に悩まされている。セマンティック・アウェアと統合したUAV絶対位置推定のための階層的クロスソース画像マッチング手法を提案する。
参考スコア（独自算出の注目度）: 10.639191465547517
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Absolute localization, aiming to determine an agent's location with respect to a global reference, is crucial for unmanned aerial vehicles (UAVs) in various applications, but it becomes challenging when global navigation satellite system (GNSS) signals are unavailable. Vision-based absolute localization methods, which locate the current view of the UAV in a reference satellite map to estimate its position, have become popular in GNSS-denied scenarios. However, existing methods mostly rely on traditional and low-level image matching, suffering from difficulties due to significant differences introduced by cross-source discrepancies and temporal variations. To overcome these limitations, in this paper, we introduce a hierarchical cross-source image matching method designed for UAV absolute localization, which integrates a semantic-aware and structure-constrained coarse matching module with a lightweight fine-grained matching module. Specifically, in the coarse matching module, semantic features derived from a vision foundation model first establish region-level correspondences under semantic and structural constraints. Then, the fine-grained matching module is applied to extract fine features and establish pixel-level correspondences. Building upon this, a UAV absolute visual localization pipeline is constructed without any reliance on relative localization techniques, mainly by employing an image retrieval module before the proposed hierarchical image matching modules. Experimental evaluations on public benchmark datasets and a newly introduced CS-UAV dataset demonstrate superior accuracy and robustness of the proposed method under various challenging conditions, confirming its effectiveness.
Abstract（参考訳）: グローバルな参照に関してエージェントの位置を決定することを目的とした絶対的位置決めは、さまざまな用途において無人航空機(UAV)にとって重要であるが、グローバルナビゲーション衛星システム(GNSS)信号が利用できないと困難になる。視線に基づく絶対位置決め手法は、現在のUAVの視界を基準衛星マップで推定して位置を推定する手法であり、GNSSのシナリオで人気がある。しかし、既存の手法は従来の画像マッチングと低レベルの画像マッチングに大きく依存しており、ソース間の相違や時間的変動による大きな違いによる困難に悩まされている。本稿では,UAV絶対局所化のための階層的クロスソース画像マッチング手法を提案する。具体的には、粗いマッチングモジュールにおいて、視覚基盤モデルから派生した意味的特徴は、まず、意味的制約と構造的制約の下で領域レベルの対応を確立する。そして、細粒度マッチングモジュールを適用して、微細な特徴を抽出し、画素レベルの対応を確立する。これに基づいて、UAV絶対的な視覚的位置決めパイプラインは、相対的な位置決め技術に依存することなく構築され、主に、提案した階層画像マッチングモジュールの前に画像検索モジュールを使用する。パブリックベンチマークデータセットとCS-UAVデータセットの実験的評価により,提案手法の様々な課題条件下での精度とロバスト性を向上し,その有効性を確認した。

関連論文リスト

Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-27T13:58:12Z)
Without Paired Labeled Data: End-to-End Self-Supervised Learning for Drone-view Geo-Localization [2.733505168507872]
ドローンビュージオローカライゼーション(DVGL)は、GPSタグ付き衛星画像を取得することで、ドローンの正確なローカライゼーションを実現することを目的としている。既存の手法は、教師あり学習のために、厳密にペアリングされたドローン衛星画像に大きく依存している。浅いバックボーンネットワークを用いたエンドツーエンドの自己教師付き学習手法を提案する。
論文参考訳（メタデータ） (2025-02-17T02:53:08Z)
Scale-wise Bidirectional Alignment Network for Referring Remote Sensing Image Segmentation [12.893224628061516]
リモートセンシング画像セグメンテーション(RRSIS)の目的は、自然言語表現を用いて、空中画像内の特定のピクセルレベル領域を抽出することである。本稿では,これらの課題に対処するため,SBANet(Scale-wise Bidirectional Alignment Network)と呼ばれる革新的なフレームワークを提案する。提案手法は,RRSIS-DとRefSegRSのデータセットにおける従来の最先端手法と比較して,優れた性能を実現する。
論文参考訳（メタデータ） (2025-01-01T14:24:04Z)
StyDeSty: Min-Max Stylization and Destylization for Single Domain Generalization [85.18995948334592]
単一のドメインの一般化(単一DG)は、単一のトレーニングドメインからのみ見えないドメインに一般化可能な堅牢なモデルを学ぶことを目的としている。最先端のアプローチは、主に新しいデータを合成するために、敵対的な摂動やスタイルの強化といったデータ拡張に頼っている。データ拡張の過程で、ソースと擬似ドメインのアライメントを明示的に考慮したemphStyDeStyを提案する。
論文参考訳（メタデータ） (2024-06-01T02:41:34Z)
Decomposition-based Unsupervised Domain Adaptation for Remote Sensing Image Semantic Segmentation [30.606689882397223]
非教師なし領域適応(UDA)技術は、地球科学のセマンティックセグメンテーションに不可欠である。高レベルの特徴空間におけるドメインアライメントに焦点を当てた既存のUDA手法の多くは、局所的な空間的詳細とグローバルな文脈的意味論を同時に維持するのに苦労している。ドメイン不変表現学習を導くための新しい分解手法を提案する。
論文参考訳（メタデータ） (2024-04-06T07:13:49Z)
Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文参考訳（メタデータ） (2024-03-03T07:58:03Z)
Spatial-Aware Token for Weakly Supervised Object Localization [137.0570026552845]
タスク固有の空間認識トークンを,弱教師付き方式で条件定位に提案する。実験の結果、SATはCUB-200とImageNetの両方で、98.45%と73.13%のGT-known Locで最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2023-03-18T15:38:17Z)
Beyond Cross-view Image Retrieval: Highly Accurate Vehicle Localization Using Satellite Image [91.29546868637911]
本稿では,地上画像と架空衛星地図とをマッチングすることにより,車載カメラのローカライゼーションの問題に対処する。鍵となる考え方は、タスクをポーズ推定として定式化し、ニューラルネットベースの最適化によってそれを解くことである。標準自動運転車のローカライゼーションデータセットの実験により,提案手法の優位性が確認された。
論文参考訳（メタデータ） (2022-04-10T19:16:58Z)
Co-visual pattern augmented generative transformer learning for automobile geo-localization [12.449657263683337]
クロスビュージオローカライゼーション(CVGL)は、地上カメラの地理的位置を、巨大なジオタグ付き空中画像とマッチングすることによって推定することを目的としている。 CVGLのための相互生成型トランスフォーマー学習(MGTL)という,トランスフォーマーと組み合わせたクロスビュー知識生成技術を用いた新しい手法を提案する。
論文参考訳（メタデータ） (2022-03-17T07:29:02Z)
Vision-Based UAV Self-Positioning in Low-Altitude Urban Environments [20.69412701553767]
無人航空機(UAV)は安定した位置決めのために衛星システムに依存している。このような状況下では、視覚に基づく技術が代替手段として機能し、UAVの自己配置能力を確実にする。本稿では,UAV自己配置タスク用に設計された最初の公開データセットであるDenseUAVを提案する。
論文参考訳（メタデータ） (2022-01-23T07:18:55Z)
Learning to Aggregate Multi-Scale Context for Instance Segmentation in Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文参考訳（メタデータ） (2021-11-22T08:55:25Z)
HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。 4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文参考訳（メタデータ） (2021-09-30T14:27:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。