Fugu-MT 論文翻訳(概要): Geo$^\textbf{2}$: Geometry-Guided Cross-view Geo-Localization and Image Synthesis

論文の概要: Geo$^\textbf{2}$: Geometry-Guided Cross-view Geo-Localization and Image Synthesis

arxiv url: http://arxiv.org/abs/2603.25819v1
Date: Thu, 26 Mar 2026 18:36:09 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-30 21:49:48.231837
Title: Geo$^\textbf{2}$: Geometry-Guided Cross-view Geo-Localization and Image Synthesis
Title（参考訳）: Geo$^\textbf{2}$:Geometry-Guided Cross-view Geo-Localization and Image Synthesis
Authors: Yancheng Zhang, Xiaohan Zhang, Guangyu Sun, Zonglin Lyu, Safwan Wshah, Chen Chen,
Abstract要約: クロスビュー地理空間学習は、クロスビュージオローカライゼーション(CVGL)とクロスビュー画像合成(CVIS)の2つの重要なタスクからなる。
参考スコア（独自算出の注目度）: 12.868037364314953
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Cross-view geo-spatial learning consists of two important tasks: Cross-View Geo-Localization (CVGL) and Cross-View Image Synthesis (CVIS), both of which rely on establishing geometric correspondences between ground and aerial views. Recent Geometric Foundation Models (GFMs) have demonstrated strong capabilities in extracting generalizable 3D geometric features from images, but their potential in cross-view geo-spatial tasks remains underexplored. In this work, we present Geo^2, a unified framework that leverages Geometric priors from GFMs (e.g., VGGT) to jointly perform geo-spatial tasks, CVGL and bidirectional CVIS. Despite the 3D reconstruction ability of GFMs, directly applying them to CVGL and CVIS remains challenging due to the large viewpoint gap between ground and aerial imagery. We propose GeoMap, which embeds ground and aerial features into a shared 3D-aware latent space, effectively reducing cross-view discrepancies for localization. This shared latent space naturally bridges cross-view image synthesis in both directions. To exploit this, we propose GeoFlow, a flow-matching model conditioned on geometry-aware latent embeddings. We further introduce a consistency loss to enforce latent alignment between the two synthesis directions, ensuring bidirectional coherence. Extensive experiments on standard benchmarks, including CVUSA, CVACT, and VIGOR, demonstrate that Geo^2 achieves state-of-the-art performance in both localization and synthesis, highlighting the effectiveness of 3D geometric priors for cross-view geo-spatial learning.
Abstract（参考訳）: クロスビュー地理空間学習は2つの重要なタスクからなる: クロスビュージオローカライゼーション(CVGL)とクロスビュー画像合成(CVIS)。最近の幾何基礎モデル(GFM)は、画像から一般化可能な3次元幾何学的特徴を抽出する強力な能力を示しているが、その相互視的地理空間的タスクのポテンシャルは未解明のままである。本研究では、GFM(例えば、VGGT)からGeometric priorsを活用する統一的なフレームワークGeo^2を提案し、地球空間的タスク、CVGLおよび双方向CVISを共同で実行する。 GFMの3次元再構成能力にもかかわらず、地上画像と空中画像の差が大きいため、CVGLとCVISに直接適用することは困難である。地上と空中の特徴を共有3D対応潜伏空間に埋め込んだGeoMapを提案する。この共有潜在空間は、両方向のクロスビュー画像合成を自然に橋渡しする。これを活用するために,幾何認識型潜伏埋め込みを条件としたフローマッチングモデルGeoFlowを提案する。さらに、両合成方向間の遅延アライメントを強制し、双方向のコヒーレンスを確保するために、一貫性損失を導入する。 CVUSA,CVACT,VIGORといった標準ベンチマークの広範な実験により,Geo^2は局所化と合成の両方において最先端の性能を達成し,地理空間学習における3次元幾何学的先行性の有効性を強調した。

関連論文リスト

Make Geometry Matter for Spatial Reasoning [62.61667611352403]
視覚言語モデル(VLM)は、強いイメージと映像理解を実現するが、静的シーンとダイナミックビデオの両方で空間的推論を行う能力は限られている。近年の進歩は、事前訓練された3次元基礎モデルから幾何学トークンをVLMに注入することで、この制限に対処しようとしている。我々は、VLMが幾何トークンで積極的に推論するように促すことにより、幾何学的問題を作るためのフレームワークGeoSRを提案する。
論文参考訳（メタデータ） (2026-03-27T17:45:12Z)
Learning to Wander: Improving the Global Image Geolocation Ability of LMMs via Actionable Reasoning [72.13218601075958]
textbfWanderBenchは,具体的シナリオにおける行動可能な位置情報推論のための,最初のオープンアクセスグローバルジオロケーションベンチマークである。我々は,下線Action of UnderlineThoughを用いた下線Geolocationフレームワークである textbfGeoAoT (Action of Thought) を提案する。 19個の大規模マルチモーダルモデルによる実験により、GeoAoTは動的環境におけるより優れた微細な局所化とより強力な一般化を実現することが示された。
論文参考訳（メタデータ） (2026-03-11T06:24:10Z)
Thinking with Geometry: Active Geometry Integration for Spatial Reasoning [68.59084007360615]
我々は,能動的知覚にパラダイム・パッシブ・フュージョンをシフトさせるフレームワークであるGeoThinkerを提案する。特徴混合の代わりに、GeoThinkerはモデルが内部の推論要求に応じて条件付けられた幾何学的証拠を選択的に検索することを可能にする。その結果,次世代の空間知能には,空間構造を積極的に統合する能力が不可欠であることが示唆された。
論文参考訳（メタデータ） (2026-02-05T18:59:32Z)
Geo2Vec: Shape- and Distance-Aware Neural Representation of Geospatial Entities [13.206124101350847]
署名された距離場(SDF)にインスパイアされた新しい手法であるGeo2Vecを導入し、元の空間で直接動作する。 SDFを近似するように訓練されたニューラルネットワークは、すべてのジオエンタリティタイプに対してコンパクトで幾何学的、統一された表現を生成する。実験結果から,Geo2Vecは形状と位置を表す既存の手法より一貫して優れており,トポロジカルおよび距離の関係を捉え,実世界のGeoAIアプリケーションにおいて高い効率を実現していることがわかった。
論文参考訳（メタデータ） (2025-08-26T07:12:28Z)
GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。 GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文参考訳（メタデータ） (2024-06-21T17:49:31Z)
Cross-view Geo-localization via Learning Disentangled Geometric Layout Correspondence [11.823147814005411]
クロスビュージオローカライゼーションは、参照ジオタグ付き空中画像データベースとマッチングすることで、クエリーグラウンド画像の位置を推定することを目的としている。最近の研究は、クロスビューなジオローカライゼーションベンチマークにおいて顕著な進歩を遂げている。しかし、既存の手法は依然としてクロスエリアベンチマークのパフォーマンスの低下に悩まされている。
論文参考訳（メタデータ） (2022-12-08T04:54:01Z)
Revisiting Near/Remote Sensing with Geospatial Attention [24.565068569913382]
本研究は、地上レベルの補助画像が利用できる場合のオーバーヘッド画像分割の課題に対処する。近年の研究では、近接・遠隔センシングと呼ばれる2つのモードで共同推論を行うことで、精度が大幅に向上することが示されている。地平面画像中の画素と地理的位置との地理空間的関係を明確に考察する幾何学的注意機構である地理空間的注意の概念を導入する。
論文参考訳（メタデータ） (2022-04-04T19:19:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。