論文の概要: Object-level Cross-view Geo-localization with Location Enhancement and Multi-Head Cross Attention
- arxiv url: http://arxiv.org/abs/2505.17911v1
- Date: Fri, 23 May 2025 13:55:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.124626
- Title: Object-level Cross-view Geo-localization with Location Enhancement and Multi-Head Cross Attention
- Title(参考訳): 位置強調とマルチヘッドクロスアテンションを用いたオブジェクトレベルのクロスビュージオローカライズ
- Authors: Zheyang Huang, Jagannath Aryal, Saeid Nahavandi, Xuequan Lu, Chee Peng Lim, Lei Wei, Hailing Zhou,
- Abstract要約: クロスビュージオローカライゼーションは、ドローンや地上カメラが捉えたクエリ画像の位置を、ジオリファレンス衛星画像とマッチングすることによって決定する。
これらの課題に対処するために,オブジェクトレベルのクロスビュージオローカライズネットワーク(OCGNet)を提案する。
OCGNetは、パブリックデータセットであるCVOGLで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 17.777115738099916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-view geo-localization determines the location of a query image, captured by a drone or ground-based camera, by matching it to a geo-referenced satellite image. While traditional approaches focus on image-level localization, many applications, such as search-and-rescue, infrastructure inspection, and precision delivery, demand object-level accuracy. This enables users to prompt a specific object with a single click on a drone image to retrieve precise geo-tagged information of the object. However, variations in viewpoints, timing, and imaging conditions pose significant challenges, especially when identifying visually similar objects in extensive satellite imagery. To address these challenges, we propose an Object-level Cross-view Geo-localization Network (OCGNet). It integrates user-specified click locations using Gaussian Kernel Transfer (GKT) to preserve location information throughout the network. This cue is dually embedded into the feature encoder and feature matching blocks, ensuring robust object-specific localization. Additionally, OCGNet incorporates a Location Enhancement (LE) module and a Multi-Head Cross Attention (MHCA) module to adaptively emphasize object-specific features or expand focus to relevant contextual regions when necessary. OCGNet achieves state-of-the-art performance on a public dataset, CVOGL. It also demonstrates few-shot learning capabilities, effectively generalizing from limited examples, making it suitable for diverse applications (https://github.com/ZheyangH/OCGNet).
- Abstract(参考訳): クロスビュージオローカライゼーションは、ドローンや地上カメラが捉えたクエリ画像の位置を、ジオリファレンス衛星画像とマッチングすることによって決定する。
従来のアプローチは画像レベルのローカライゼーションに重点を置いているが、検索とレスキュー、インフラ検査、精度の高い配信といった多くのアプリケーションでは、オブジェクトレベルの精度が要求される。
これにより、ドローン画像のワンクリックで特定のオブジェクトをプロンプトして、オブジェクトの正確なジオタグ情報を取得することができる。
しかしながら、視点、タイミング、撮像条件の変化は、特に広範囲の衛星画像で視覚的に類似した物体を識別する場合、重大な課題を引き起こす。
これらの課題に対処するため,我々はオブジェクトレベル・クロスビュー・ジオローカライゼーション・ネットワーク(OCGNet)を提案する。
ユーザが指定したクリック位置をGaussian Kernel Transfer (GKT)を使って統合し、ネットワーク全体の位置情報を保存する。
このキューは、機能エンコーダと機能マッチングブロックに二重に埋め込まれ、堅牢なオブジェクト固有のローカライゼーションを保証する。
さらにOCGNetにはLocation Enhancement (LE) モジュールとMHCA (Multi-Head Cross Attention) モジュールが組み込まれている。
OCGNetは、パブリックデータセットであるCVOGLで最先端のパフォーマンスを達成する。
限られた例から効果的に一般化し、多様なアプリケーション(https://github.com/ZheyangH/OCGNet)に適している。
関連論文リスト
- VAGeo: View-specific Attention for Cross-View Object Geo-Localization [19.4845592498138]
クロスビューオブジェクトジオローカライゼーション(CVOGL)は、衛星画像内の捕獲された地上画像やドローン画像への関心の対象を見つけることを目的としている。
本稿では,正確なCVOGLのためのビュー固有アテンションジオローカライズ手法(VAGeo)を提案する。
論文 参考訳(メタデータ) (2025-01-13T10:42:18Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - United Domain Cognition Network for Salient Object Detection in Optical Remote Sensing Images [21.76732661032257]
周波数領域と空間領域のグローバルローカル情報を共同で探索する新しい統一ドメイン認知ネットワーク(UDCNet)を提案する。
実験結果から提案したUDCNetが24種類の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-11-11T04:12:27Z) - GOMAA-Geo: GOal Modality Agnostic Active Geo-localization [49.599465495973654]
エージェントが空中ナビゲーション中に観測された一連の視覚的手がかりを用いて、複数の可能なモダリティによって特定されたターゲットを見つけるという、アクティブなジオローカライゼーション(AGL)の課題を考察する。
GOMAA-Geo は、ゴールモダリティ間のゼロショット一般化のためのゴールモダリティアクティブなジオローカライゼーションエージェントである。
論文 参考訳(メタデータ) (2024-06-04T02:59:36Z) - Detect2Interact: Localizing Object Key Field in Visual Question Answering (VQA) with LLMs [5.891295920078768]
本稿では,物体の視覚的フィールド検出のための高度な手法を提案する。
まず,画像中の物体の詳細な空間地図を生成するために,SAMモデルを用いた。
次に、Vision Studioを使用してセマンティックオブジェクト記述を抽出する。
第3に、GPT-4の常識知識を用いて、オブジェクトの意味論と空間マップとのギャップを埋める。
論文 参考訳(メタデータ) (2024-04-01T14:53:36Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - DQnet: Cross-Model Detail Querying for Camouflaged Object Detection [54.82390534024954]
カモフラージュされた物体検出のための畳み込みニューラルネットワーク(CNN)は、完全な対象範囲を無視しながら局所的な識別領域を活性化する傾向がある。
本稿では,CNNの内在的特性から部分的活性化が引き起こされることを論じる。
完全なオブジェクト範囲を活性化できる特徴マップを得るために,クロスモデル詳細クエリネットワーク(DQnet)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T06:23:58Z) - Visual and Object Geo-localization: A Comprehensive Survey [11.120155713865918]
ジオローカライゼーション(ジオローカライゼーション)とは、地球上の「ある実体がどこにあるか」を決定する過程のこと。
本稿では、画像の撮影場所(画像ジオローカライゼーション)や画像内の物体の位置決め(オブジェクトジオローカライゼーション)を含む、画像を含む画像の地理的ローカライゼーションに関する包括的調査を行う。
本稿では、一般的なアルゴリズムの要約、提案したデータセットの説明、各分野の現状を説明するためのパフォーマンス結果の分析など、詳細な研究を行う。
論文 参考訳(メタデータ) (2021-12-30T20:46:53Z) - Location-Sensitive Visual Recognition with Cross-IOU Loss [177.86369890708457]
本稿では,オブジェクト検出,インスタンスセグメンテーション,ポーズ推定のための位置感知ネットワーク (LSNet) という統合ソリューションを提案する。
ディープニューラルネットワークをバックボーンとして、LSNetは、ターゲットオブジェクトの形状を一緒に定義するアンカーポイントとランドマークのセットを予測します。
論文 参考訳(メタデータ) (2021-04-11T02:17:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。