論文の概要: CVGL: Causal Learning and Geometric Topology
- arxiv url: http://arxiv.org/abs/2603.12551v1
- Date: Fri, 13 Mar 2026 01:25:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.830947
- Title: CVGL: Causal Learning and Geometric Topology
- Title(参考訳): CVGL: 因果学習と幾何学的トポロジー
- Authors: Songsong Ouyang, Yingying Zhu,
- Abstract要約: クロスビュージオローカライゼーション(CVGL)は,道路画像の地理的位置を対応する航空画像とマッチングすることにより推定することを目的としている。
これは、複雑な現実世界のシナリオにおける自律的なナビゲーションとマッピングにとって重要である。
これらの問題に対処するための因果学習・幾何学的トポロジーフレームワークを提案する。
- 参考スコア(独自算出の注目度): 2.110335380179406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-view geo-localization (CVGL) aims to estimate the geographic location of a street image by matching it with a corresponding aerial image. This is critical for autonomous navigation and mapping in complex real-world scenarios. However, the task remains challenging due to significant viewpoint differences and the influence of confounding factors. To tackle these issues, we propose the Causal Learning and Geometric Topology (CLGT) framework, which integrates two key components: a Causal Feature Extractor (CFE) that mitigates the influence of confounding factors by leveraging causal intervention to encourage the model to focus on stable, task-relevant semantics; and a Geometric Topology Fusion (GT Fusion) module that injects Bird's Eye View (BEV) road topology into street features to alleviate cross-view inconsistencies caused by extreme perspective changes. Additionally, we introduce a Data-Adaptive Pooling (DA Pooling) module to enhance the representation of semantically rich regions. Extensive experiments on CVUSA, CVACT, and their robustness-enhanced variants (CVUSA-C-ALL and CVACT-C-ALL) demonstrate that CLGT achieves state-of-the-art performance, particularly under challenging real-world corruptions. Our codes are available at https://github.com/oyss-szu/CLGT.
- Abstract(参考訳): クロスビュージオローカライゼーション(CVGL)は,道路画像の地理的位置を対応する航空画像とマッチングすることにより推定することを目的としている。
これは、複雑な現実世界のシナリオにおける自律的なナビゲーションとマッピングにとって重要である。
しかし,重要な視点の違いや要因の影響により,課題は依然として困難なままである。
これらの課題に対処するために,因果的要因の影響を緩和する因果的特徴抽出器(CFE)と,鳥の視線ビュー(BEV)の道路トポロジをストリート特徴に注入し,極端な視点変化による横断的不整合を緩和する幾何的トポロジフュージョン(GT Fusion)モジュールという,2つの主要なコンポーネントを統合した因果的学習・幾何学的トポロジ(CLGT)フレームワークを提案する。
さらに,データ適応型プール (DA Pooling) モジュールを導入し,意味的にリッチな領域の表現を強化する。
CVUSA、CVACT、およびその堅牢性強化型(CVUSA-C-ALL、CVACT-C-ALL)に関する大規模な実験は、CLGTが最先端の性能、特に現実の汚職に挑戦して達成できることを実証している。
私たちのコードはhttps://github.com/oyss-szu/CLGT.comで公開されています。
関連論文リスト
- MRGeo: Robust Cross-View Geo-Localization of Corrupted Images via Spatial and Channel Feature Enhancement [15.9788448312641]
クロスビュージオローカライゼーション (CVGL) は、対応するジオタグ付き衛星画像の検索により、ストリートビュー画像を正確にローカライズすることを目的としている。
以前の研究は、特定の標準データセット上でほぼ完璧なパフォーマンスを達成したが、現実の腐敗した環境での堅牢性は、まだ未調査のままである。
汚職下での堅牢なCVGLのための最初の体系的手法であるMRGeoを紹介する。
論文 参考訳(メタデータ) (2026-03-13T02:37:43Z) - SinGeo: Unlock Single Model's Potential for Robust Cross-View Geo-Localization [25.563713122044337]
SinGeoはシンプルだが強力なフレームワークであり、単一のモデルで堅牢なクロスビューなジオローカライゼーションを実現することができる。
SinGeoは、地上と衛星の両方のブランチにおけるビュー内識別性を向上する二重識別学習アーキテクチャを採用している。
論文 参考訳(メタデータ) (2026-03-10T08:51:52Z) - TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - Dynamic Topology Awareness: Breaking the Granularity Rigidity in Vision-Language Navigation [22.876516699004814]
VLN-CE(Vision-Language Navigation in Continuous Environments)は、高レベルの言語命令を正確で安全で長期の空間行動に基礎付けるという、中核的な課題を提示している。
露骨なトポロジカルマップは、そのようなタスクにおいて堅牢な空間記憶を提供するための重要な解決策であることが証明されている。
既存のトポロジカルプランニング手法は、"Granularity Rigidity"問題に悩まされている。
本研究では,動的トポロジカルナビゲーションのためのフレームワークであるDGNavを提案する。
論文 参考訳(メタデータ) (2026-01-29T14:06:23Z) - UAGLNet: Uncertainty-Aggregated Global-Local Fusion Network with Cooperative CNN-Transformer for Building Extraction [83.48950950780554]
リモートセンシング画像からの抽出は、複雑な構造変化のために難しい課題である。
既存の方法は、セグメンテーションモデルにおけるマルチスケール特徴をキャプチャするために、畳み込みブロックまたは自己アテンションブロックを使用する。
高品質なグローバルローカルなビジュアルセマンティクスを活用するために,不確実性集約型グローバルローカルフュージョンネットワーク(UAGLNet)を提案する。
論文 参考訳(メタデータ) (2025-12-15T02:59:16Z) - GLEAM: Learning to Match and Explain in Cross-View Geo-Localization [66.11208984986813]
CVGL(Cross-View Geo-Localization)は、同じ地理的位置の異なる視点から撮影された画像間の対応を識別することに焦点を当てている。
GLEAM-Cは、UAV画像、ストリートマップ、パノラマ画像、地上写真を含む複数のビューとモダリティを衛星画像のみに合わせる基本CVGLモデルである。
従来のCVGL手法では解釈可能性の欠如に対処するため,クロスビュー対応予測と説明可能な推論を組み合わせたGLEAM-Xを提案する。
論文 参考訳(メタデータ) (2025-09-09T07:14:31Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - Robust Cross-View Geo-Localization via Content-Viewpoint Disentanglement [21.192114177279695]
クロスビュージオローカライゼーション(CVGL)は、ドローンや衛星など、さまざまな視点から捉えた同じ地理的位置の画像をマッチングすることを目的としている。
CVGLは、視線の変化による顕著な外観変化と空間歪みのため、非常に困難である。
我々は、$textitcontent$と$textitviewpoint$ Factorを明示的に分離する新しいCVGLフレームワークである$textbfCVD$を提案する。
論文 参考訳(メタデータ) (2025-05-17T04:10:32Z) - Bridging Data Islands: Geographic Heterogeneity-Aware Federated Learning for Collaborative Remote Sensing Semantic Segmentation [7.265569559979736]
高品質な注釈付きリモートセンシング画像は、しばしば分離され、機関に分散される。
リモートセンシングデータアイランドの問題は、グローバルモデルのトレーニングに独立したデータセットを完全に活用する上での課題を提起している。
我々は、RSSでデータアイランドをブリッジする新しい地理異質性を考慮したフェデレーションラーニング(GeoFed)フレームワークを提案する。
我々のフレームワークは,Global Insight Enhancement(GIE)モジュール,Essential Feature Mining(EFM)モジュール,LoGo(LoGo)モジュールという3つのモジュールで構成されています。
論文 参考訳(メタデータ) (2024-04-14T15:58:35Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。