論文の概要: InfoGeo: Information-Theoretic Object-Centric Learning for Cross-View Generalizable UAV Geo-Localization
- arxiv url: http://arxiv.org/abs/2605.07099v1
- Date: Fri, 08 May 2026 01:28:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.715548
- Title: InfoGeo: Information-Theoretic Object-Centric Learning for Cross-View Generalizable UAV Geo-Localization
- Title(参考訳): InfoGeo: クロスビュー汎用UAVジオローカライゼーションのための情報理論オブジェクト中心学習
- Authors: Hongyang Zhang, Maonnan Wang, Ziyao Wang, Hongrui Yin, Man OnPun,
- Abstract要約: クロスビューなジオローカライゼーションは、GPSを用いた環境での正確な位置決めとナビゲーションに欠かせない。
本稿では,堅牢性と一般化性を高めるための情報理論フレームワークであるInfoGeoを提案する。
InfoGeoは,ビュー間のオブジェクト中心構造関係を整列させることにより,ビュー不変情報を最大化すること,ビュー固有ノイズ信号の最小化という2つの目的により,情報ボトルネックプロセスとして最適化を再構築する。
- 参考スコア(独自算出の注目度): 12.259964756337892
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Cross-view geo-localization (CVGL) is fundamental for precise localization and navigation in GPS-denied environments, aiming to match ground or UAV imagery with satellite views. While existing approaches rely on global feature alignment, they often suffer from substantial domain shifts induced by varying regional textures and weather conditions. This issue becomes even more pronounced in UAV-based scenarios, where the broader perspective inevitably introduces dense, fine-grained objects, creating significant visual clutter. To address this, we draw inspiration from Object-Centric Learning (OCL) and propose InfoGeo, an information-theoretic framework designed to enhance robustness and generalization. InfoGeo reformulates the optimization as an information bottleneck process with two core objectives: (i) maximizing view-invariant information by aligning the object-centric structural relations across views, and (ii) minimizing view-specific noisy signals through cross-view knowledge constraints. Extensive evaluations across diverse benchmarks and challenging scenarios demonstrate that InfoGeo significantly outperforms state-of-the-art methods.
- Abstract(参考訳): クロスビュー・ジオローカライゼーション (CVGL) は、GPSを付加した環境での正確な位置決めとナビゲーションの基礎であり、地上やUAVの画像と衛星視とのマッチングを目的としている。
既存のアプローチはグローバルな特徴アライメントに依存しているが、地域によって異なるテクスチャや気象条件によって引き起こされる領域シフトに悩まされることが多い。
この問題はUAVベースのシナリオでさらに顕著になり、より広い視点で必然的に細粒度な物体を導入し、大きな視覚的乱雑を生み出す。
これを解決するために、我々はオブジェクト指向学習(OCL)からインスピレーションを得て、堅牢性と一般化を高めるために設計された情報理論フレームワークであるInfoGeoを提案する。
InfoGeoは2つのコア目標を持つ情報ボトルネックプロセスとして最適化を再構築する。
一 ビューにまたがる対象中心の構造的関係を整列させることにより、ビュー不変情報を最大化すること。
(II)クロスビュー知識制約によるビュー固有ノイズ信号の最小化。
さまざまなベンチマークや挑戦的なシナリオにわたる大規模な評価は、InfoGeoが最先端のメソッドを大幅に上回っていることを示している。
関連論文リスト
- Global Cross-Modal Geo-Localization: A Million-Scale Dataset and a Physical Consistency Learning Framework [13.268717213871147]
クロスモーダルジオローカライゼーション(CMGL)は、地上レベルのテキスト記述とジオタグ付き空中画像とを一致させる。
グローバルCMGL専用の最初の100万規模のデータセットであるCOREを紹介する。
モーダルな地理的ローカライゼーションのための物理ロッド・アウェア・ネットワーク(PLANET)を提案する。
論文 参考訳(メタデータ) (2026-03-09T15:27:19Z) - GeoViS: Geospatially Rewarded Visual Search for Remote Sensing Visual Grounding [23.253648429114236]
リモートセンシング視覚接地のためのプログレッシブ検索・推論フレームワークGeoViSを提案する。
我々はGeoViSが、主要な視覚的グラウンドリング指標を越えて既存の手法を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-12-02T12:45:52Z) - Seeing the Unseen: Mask-Driven Positional Encoding and Strip-Convolution Context Modeling for Cross-View Object Geo-Localization [8.559240391514063]
クロスビューオブジェクトジオローカライゼーションは、クロスビューマッチングによる高精度オブジェクトローカライゼーションを可能にする。
既存の手法はキーポイントに基づく位置符号化に依存しており、オブジェクトの形状情報を無視しながら2次元座標のみをキャプチャする。
空間座標と物体シルエットの両方を捕捉するために分割マスクを利用するマスクベースの位置符号化方式を提案する。
EDGeoは、堅牢なクロスビューオブジェクトジオローカライズのためのエンドツーエンドフレームワークである。
論文 参考訳(メタデータ) (2025-10-23T06:07:07Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - CurriculumLoc: Enhancing Cross-Domain Geolocalization through
Multi-Stage Refinement [11.108860387261508]
ビジュアルジオローカライゼーションはコスト効率が高くスケーラブルなタスクであり、未知の場所で撮影された1つ以上のクエリイメージとジオタグ付き参照イメージのセットをマッチングする。
我々は,グローバルな意味認識と局所的幾何学的検証を備えたキーポイント検出と記述法であるCurriculumLocを開発した。
我々は、ALTOで62.6%と94.5%の新しいハイリコール@1スコアをそれぞれ2つの異なる距離で達成した。
論文 参考訳(メタデータ) (2023-11-20T08:40:01Z) - Co-visual pattern augmented generative transformer learning for
automobile geo-localization [12.449657263683337]
クロスビュージオローカライゼーション(CVGL)は、地上カメラの地理的位置を、巨大なジオタグ付き空中画像とマッチングすることによって推定することを目的としている。
CVGLのための相互生成型トランスフォーマー学習(MGTL)という,トランスフォーマーと組み合わせたクロスビュー知識生成技術を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T07:29:02Z) - Multi-Level Graph Convolutional Network with Automatic Graph Learning
for Hyperspectral Image Classification [63.56018768401328]
HSI分類のための自動グラフ学習法(MGCN-AGL)を用いたマルチレベルグラフ畳み込みネットワーク(GCN)を提案する。
空間的に隣接する領域における重要度を特徴付けるために注意機構を利用することで、最も関連性の高い情報を適応的に組み込んで意思決定を行うことができる。
MGCN-AGLは局所的に生成した表現表現に基づいて画像領域間の長距離依存性を符号化する。
論文 参考訳(メタデータ) (2020-09-19T09:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。