論文の概要: CLNet: Cross-View Correspondence Makes a Stronger Geo-Localizationer
- arxiv url: http://arxiv.org/abs/2512.14560v1
- Date: Tue, 16 Dec 2025 16:31:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.791423
- Title: CLNet: Cross-View Correspondence Makes a Stronger Geo-Localizationer
- Title(参考訳): CLNet: より強力なジオローカライザを実現するクロスビュー対応
- Authors: Xianwei Cao, Dou Quan, Shuang Wang, Ning Huyan, Wei Wang, Yunan Li, Licheng Jiao,
- Abstract要約: 本稿では,異なるビュー間の意味的および幾何学的ギャップを明示的に橋渡しする,CLNetと呼ばれる通信対応機能改善フレームワークを提案する。
CLNetはビューアライメントプロセスを3つの学習可能な補完モジュールに分解する。
提案するCLNetは、より優れた解釈性と一般化性を提供しながら、最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 48.52152634356309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image retrieval-based cross-view geo-localization (IRCVGL) aims to match images captured from significantly different viewpoints, such as satellite and street-level images. Existing methods predominantly rely on learning robust global representations or implicit feature alignment, which often fail to model explicit spatial correspondences crucial for accurate localization. In this work, we propose a novel correspondence-aware feature refinement framework, termed CLNet, that explicitly bridges the semantic and geometric gaps between different views. CLNet decomposes the view alignment process into three learnable and complementary modules: a Neural Correspondence Map (NCM) that spatially aligns cross-view features via latent correspondence fields; a Nonlinear Embedding Converter (NEC) that remaps features across perspectives using an MLP-based transformation; and a Global Feature Recalibration (GFR) module that reweights informative feature channels guided by learned spatial cues. The proposed CLNet can jointly capture both high-level semantics and fine-grained alignments. Extensive experiments on four public benchmarks, CVUSA, CVACT, VIGOR, and University-1652, demonstrate that our proposed CLNet achieves state-of-the-art performance while offering better interpretability and generalizability.
- Abstract(参考訳): 画像検索に基づくクロスビュージオローカライゼーション(IRCVGL)は、衛星やストリートレベルの画像など、かなり異なる視点から撮影された画像とマッチングすることを目的としている。
既存の手法は主に、ロバストなグローバル表現や暗黙的な特徴アライメントの学習に依存しており、正確な位置付けに不可欠な明示的な空間対応をモデル化できないことが多い。
本研究では,異なるビュー間の意味的および幾何学的ギャップを明示的に橋渡しする,CLNetと呼ばれる新しい通信対応機能改善フレームワークを提案する。
CLNetはビューアライメントプロセスを、3つの学習可能な補完モジュールに分解する: 遅延対応フィールドを介して空間的に横断的な特徴を整列するニューラル対応マップ(NCM)、MLPベースの変換を用いて特徴を視点を越えて再マップする非線形埋め込み変換器(NEC)、学習された空間的手がかりによって導かれる情報的特徴チャネルを重み付けするグローバル特徴補正(GFR)モジュール。
提案したCLNetは、高レベルのセマンティクスと微粒なアライメントの両方を共同でキャプチャできる。
CVUSA,CVACT,VIGOR,University-1652の4つの公開ベンチマークに対する大規模な実験により,提案するCLNetは高い解釈性と一般化性を提供しながら,最先端の性能を実現していることが示された。
関連論文リスト
- SegMASt3R: Geometry Grounded Segment Matching [23.257530861472656]
我々は3次元基礎モデルの空間的理解を活用して,広義のセグメントマッチングに取り組む。
本稿では,これら3次元基礎モデルの帰納バイアスを利用して,最大180度の視点変化回転で画像対間のセグメントをマッチングするアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-10-06T17:31:32Z) - GLEAM: Learning to Match and Explain in Cross-View Geo-Localization [66.11208984986813]
CVGL(Cross-View Geo-Localization)は、同じ地理的位置の異なる視点から撮影された画像間の対応を識別することに焦点を当てている。
GLEAM-Cは、UAV画像、ストリートマップ、パノラマ画像、地上写真を含む複数のビューとモダリティを衛星画像のみに合わせる基本CVGLモデルである。
従来のCVGL手法では解釈可能性の欠如に対処するため,クロスビュー対応予測と説明可能な推論を組み合わせたGLEAM-Xを提案する。
論文 参考訳(メタデータ) (2025-09-09T07:14:31Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - Revisiting Cross-View Localization from Image Matching [12.411420734642988]
クロスビューのローカライゼーションは、地上画像の3自由度ポーズを航空画像や衛星画像に登録することによって推定することを目的としている。
既存の方法は、直接ポーズを取るか、共有された鳥眼ビュー(BEV)空間で特徴を整列させる。
マッチングとローカライゼーションの両方を改善する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-14T14:57:31Z) - Global-and-Local Collaborative Learning for Co-Salient Object Detection [162.62642867056385]
Co-Salient Object Detection (CoSOD)の目標は、2つ以上の関連する画像を含むクエリグループに一般的に現れる有能なオブジェクトを見つけることである。
本稿では,グローバル対応モデリング(GCM)とローカル対応モデリング(LCM)を含む,グローバル・ローカル協調学習アーキテクチャを提案する。
提案したGLNetは3つの一般的なCoSODベンチマークデータセットに基づいて評価され、我々のモデルが小さなデータセット(約3k画像)でトレーニングされた場合、一部の大規模データセット(約8k-200k画像)でトレーニングされた11の最先端の競合製品(約8k-200k画像)を上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-19T14:32:41Z) - DenseGAP: Graph-Structured Dense Correspondence Learning with Anchor
Points [15.953570826460869]
2つの画像間の密接な対応を確立することは、基本的なコンピュータビジョンの問題である。
我々は、アンカーポイントに条件付きグラフ構造化ニューラルネットワークを用いたDense対応学習のための新しいソリューションであるDenseGAPを紹介する。
提案手法は,ほとんどのベンチマークにおいて対応学習の最先端化を図っている。
論文 参考訳(メタデータ) (2021-12-13T18:59:30Z) - Similarity Reasoning and Filtration for Image-Text Matching [85.68854427456249]
画像-テキストマッチングのための類似度グラフ推論と注意フィルタリングネットワークを提案する。
類似性グラフ推論(SGR)モジュールを1つのグラフ畳み込みニューラルネットワークに頼り、局所的および大域的アライメントの両方と関係性を考慮した類似性を推論する。
Flickr30K と MSCOCO のデータセット上での最先端性能を実現する上で,提案手法の優位性を示す。
論文 参考訳(メタデータ) (2021-01-05T06:29:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。