論文の概要: Learnable Query Aggregation with KV Routing for Cross-view Geo-localisation
- arxiv url: http://arxiv.org/abs/2512.23938v1
- Date: Tue, 30 Dec 2025 01:51:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.254217
- Title: Learnable Query Aggregation with KV Routing for Cross-view Geo-localisation
- Title(参考訳): クロスビュージオローカライゼーションのためのKVルーティングを用いた学習可能なクエリアグリゲーション
- Authors: Hualin Ye, Bingxi Liu, Jixiang Du, Yu Qin, Ziyi Chen, Hong Zhang,
- Abstract要約: クロスビュージオローカライゼーション(CVGL)は,大規模データベースの画像と照合することで,クエリ画像の地理的位置を推定することを目的としている。
これらの課題に対処するために,3つの改良点を取り入れたCVGLシステムを提案する。
- 参考スコア(独自算出の注目度): 12.484512905649309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-view geo-localisation (CVGL) aims to estimate the geographic location of a query image by matching it with images from a large-scale database. However, the significant view-point discrepancies present considerable challenges for effective feature aggregation and alignment. To address these challenges, we propose a novel CVGL system that incorporates three key improvements. Firstly, we leverage the DINOv2 backbone with a convolution adapter fine-tuning to enhance model adaptability to cross-view variations. Secondly, we propose a multi-scale channel reallocation module to strengthen the diversity and stability of spatial representations. Finally, we propose an improved aggregation module that integrates a Mixture-of-Experts (MoE) routing into the feature aggregation process. Specifically, the module dynamically selects expert subspaces for the keys and values in a cross-attention framework, enabling adaptive processing of heterogeneous input domains. Extensive experiments on the University-1652 and SUES-200 datasets demonstrate that our method achieves competitive performance with fewer trained parameters.
- Abstract(参考訳): クロスビュージオローカライゼーション(CVGL)は、大規模データベースの画像と照合することで、クエリ画像の地理的位置を推定することを目的としている。
しかし、重要な視点の相違は、効果的な特徴集約とアライメントにかなりの課題をもたらす。
これらの課題に対処するために,3つの改良点を取り入れたCVGLシステムを提案する。
まず、DINOv2のバックボーンにコンボリューションアダプタを微調整し、モデル適応性をクロスビューのバリエーションに高める。
次に,空間表現の多様性と安定性を高めるため,マルチスケールチャネル再配置モジュールを提案する。
最後に,Mixture-of-Experts(MoE)ルーティングを機能集約プロセスに統合する改良されたアグリゲーションモジュールを提案する。
具体的には、モジュールは、クロスアテンションフレームワークにおけるキーと値のエキスパートサブスペースを動的に選択し、異種入力ドメインの適応処理を可能にする。
また,University-1652とSUES-200データセットの大規模な実験により,本手法は少ない訓練パラメータで競合性能を達成できることを示した。
関連論文リスト
- GCRPNet: Graph-Enhanced Contextual and Regional Perception Network for Salient Object Detection in Optical Remote Sensing Images [68.33481681452675]
本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。
これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。
マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
論文 参考訳(メタデータ) (2025-08-14T11:31:43Z) - DSFormer: A Dual-Scale Cross-Learning Transformer for Visual Place Recognition [16.386674597850778]
本稿では,TransformerベースのクロスラーニングモジュールであるDual-Scale-Former(DSFormer)と,革新的なブロッククラスタリング戦略を統合する新しいフレームワークを提案する。
提案手法は,ほとんどのベンチマークデータセットにまたがって最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-07-24T14:29:30Z) - Multi-Level Embedding and Alignment Network with Consistency and Invariance Learning for Cross-View Geo-Localization [2.733505168507872]
CVGL(Cross-View Geo-Localization)は、最もよく似たGPSタグ付き衛星画像を取得することで、ドローン画像のローカライゼーションを決定する。
既存の手法は、モデルの性能を改善する際に、計算と記憶の要求が増大する問題をしばしば見落としている。
マルチレベル・エンベディング・アライメント・ネットワーク(MEAN)と呼ばれる軽量なアライメント・ネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-19T13:10:38Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z) - AA-RMVSNet: Adaptive Aggregation Recurrent Multi-view Stereo Network [8.127449025802436]
本稿では,AA-RMVSNetというアダプティブアグリゲーションを備えた長短期記憶(LSTM)に基づく,新しいマルチビューステレオネットワークを提案する。
まず、コンテキスト認識の畳み込みとマルチスケールアグリゲーションを用いて、画像の特徴を適応的に抽出するビュー内アグリゲーションモジュールを提案する。
本稿では,すべてのビューにおいて,より整合性のあるペアを保存可能な,適応的なピクセルワイドビューアグリゲーションのためのビュー間コストボリュームアグリゲーションモジュールを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:10:48Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。