論文の概要: Cross-view geo-localization, Image retrieval, Multiscale geometric modeling, Frequency domain enhancement
- arxiv url: http://arxiv.org/abs/2603.02726v1
- Date: Tue, 03 Mar 2026 08:25:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.708527
- Title: Cross-view geo-localization, Image retrieval, Multiscale geometric modeling, Frequency domain enhancement
- Title(参考訳): クロスビュージオローカライゼーション、画像検索、マルチスケール幾何モデリング、周波数領域拡張
- Authors: Hongying Zhang, ShuaiShuai Ma,
- Abstract要約: クロスビュージオローカライゼーション(CVGL)は、異なる視点から撮影された画像間の空間的対応を確立することを目的としている。
CVGLは、厳密な幾何学的非対称性、画像領域間のテクスチャの不整合、および識別的局所情報の段階的な劣化により、依然として困難なままである。
本稿では、空間領域と周波数領域の相補表現を利用した空間周波数領域拡張ネットワーク(SFDE)を提案する。
- 参考スコア(独自算出の注目度): 1.6686955491488273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-view geo-localization (CVGL) aims to establish spatial correspondences between images captured from significantly different viewpoints and constitutes a fundamental technique for visual localization in GNSS-denied environments. Nevertheless, CVGL remains challenging due to severe geometric asymmetry, texture inconsistency across imaging domains, and the progressive degradation of discriminative local information. Existing methods predominantly rely on spatial domain feature alignment, which is inherently sensitive to large scale viewpoint variations and local disturbances. To alleviate these limitations, this paper proposes the Spatial and Frequency Domain Enhancement Network (SFDE), which leverages complementary representations from spatial and frequency domains. SFDE adopts a three branch parallel architecture to model global semantic context, local geometric structure, and statistical stability in the frequency domain, respectively, thereby characterizing consistency across domains from the perspectives of scene topology, multiscale structural patterns, and frequency invariance. The resulting complementary features are jointly optimized in a unified embedding space via progressive enhancement and coupled constraints, enabling the learning of cross-view representations with consistency across multiple granularities. Comprehensive experiments show that SFDE achieves competitive performance and in many cases even surpasses state-of-the-art methods, while maintaining a lightweight and computationally efficient design. {Our code is available at https://github.com/Mashuaishuai669/SFDE
- Abstract(参考訳): クロスビュージオローカライゼーション(CVGL)は,異なる視点から捉えた画像間の空間的対応を確立することを目的とする。
それでもCVGLは、厳密な幾何学的非対称性、画像領域間のテクスチャの不整合、および識別的局所情報の段階的な劣化により、依然として困難なままである。
既存の手法は主に空間領域の特徴的アライメントに依存しており、これは本質的に大規模視点の変化や局所的乱れに敏感である。
これらの制約を緩和するために、空間領域と周波数領域の相補的表現を利用する空間及び周波数領域拡張ネットワーク(SFDE)を提案する。
SFDEは、大域的意味論的文脈、局所幾何学的構造、および周波数領域の統計的安定性をモデル化するために、3つの分岐並列アーキテクチャを採用し、これにより、シーントポロジー、マルチスケール構造パターン、周波数不変性の観点から、各領域間の一貫性を特徴づける。
結果として得られる相補的な特徴は、プログレッシブエンハンスメントと結合制約によって統合埋め込み空間に共同で最適化され、複数の粒度をまたいだ一貫性のあるクロスビュー表現の学習が可能になる。
総合的な実験では、SFDEは競争性能を達成し、多くの場合、軽量で計算効率の良い設計を維持しながら最先端の手法を超越している。
https://github.com/Mashuaishuai669/SFDE
関連論文リスト
- OCTOPUS: Enhancing the Spatial-Awareness of Vision SSMs with Multi-Dimensional Scans and Traversal Selection [20.717476762904038]
我々は,大域的コンテキストと画像内の局所空間構造の両方を保存する新しいアーキテクチャであるOCTOPUSを紹介する。
OCTOPUSは8つの主方向に沿って個別に再起し、水平方向、垂直方向、対角方向を前方または後方に進む。
分類とセグメンテーションのベンチマークでは、OCTOPUSは境界保存と領域の整合性において顕著な改善を示した。
論文 参考訳(メタデータ) (2026-01-31T21:12:59Z) - JRN-Geo: A Joint Perception Network based on RGB and Normal images for Cross-view Geo-localization [26.250213248316342]
クロスビューのジオローカライゼーションは、無人航空機(UAV)のローカライゼーションとナビゲーションにおいて重要な役割を担っている。
既存の手法は主にRGB画像のセマンティックな特徴に依存している。
RGBと正規画像を統合するための統合知覚ネットワークを導入する。
論文 参考訳(メタデータ) (2025-09-06T12:11:51Z) - GCRPNet: Graph-Enhanced Contextual and Regional Perception Network for Salient Object Detection in Optical Remote Sensing Images [68.33481681452675]
本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。
これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。
マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
論文 参考訳(メタデータ) (2025-08-14T11:31:43Z) - Hierarchical Graph Attention Network for No-Reference Omnidirectional Image Quality Assessment [21.897948374713163]
現在のOIQA(Omnidirectional Image Quality Assessment)法は,局所的な非一様歪みの評価に苦慮している。
本稿では,ビューポート間の構造関係を明示的にモデル化するグラフニューラルネットワークを用いたOIQAフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-13T14:25:24Z) - HSRMamba: Contextual Spatial-Spectral State Space Model for Single Image Hyperspectral Super-Resolution [41.93421212397078]
Mambaは、その強力なグローバルモデリング能力と線形計算複雑性のために、視覚タスクにおいて例外的な性能を示した。
HSRMambaはハイパースペクトル画像超解像(HSISR)のための文脈空間スペクトルモデリング状態空間モデルである
論文 参考訳(メタデータ) (2025-01-30T17:10:53Z) - Exploiting Aggregation and Segregation of Representations for Domain Adaptive Human Pose Estimation [50.31351006532924]
人間のポーズ推定(HPE)は最近、モーション分析、バーチャルリアリティー、ヘルスケア等に広く応用されているため、注目を集めている。
時間と労働集約的なアノテーションのために、ラベル付き現実世界のデータセットが不足している。
本稿では,ドメイン適応型人間のポーズ推定のための表現集約と分離を両立させる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-29T17:59:45Z) - Multisource Collaborative Domain Generalization for Cross-Scene Remote Sensing Image Classification [57.945437355714155]
クロスシーン画像分類は, 異なる分布領域のアノテート領域に, 地中物質の事前の知識を伝達することを目的としている。
既存のアプローチでは、未確認のターゲットドメインへの単一ソースドメインの一般化に重点を置いている。
マルチソースリモートセンシングデータの均一性と不均一性特性に基づく,新しいマルチソース協調型ドメイン一般化フレームワーク(MS-CDG)を提案する。
論文 参考訳(メタデータ) (2024-12-05T06:15:08Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Decomposition-based Unsupervised Domain Adaptation for Remote Sensing Image Semantic Segmentation [30.606689882397223]
非教師なし領域適応(UDA)技術は、地球科学のセマンティックセグメンテーションに不可欠である。
高レベルの特徴空間におけるドメインアライメントに焦点を当てた既存のUDA手法の多くは、局所的な空間的詳細とグローバルな文脈的意味論を同時に維持するのに苦労している。
ドメイン不変表現学習を導くための新しい分解手法を提案する。
論文 参考訳(メタデータ) (2024-04-06T07:13:49Z) - Multi-Spectral Image Stitching via Spatial Graph Reasoning [52.27796682972484]
空間グラフ推論に基づくマルチスペクトル画像縫合法を提案する。
同一のビュー位置から複数スケールの補完機能をノードに埋め込む。
空間的・チャネル的次元に沿った長距離コヒーレンスを導入することにより、画素関係の相補性とチャネル相互依存性は、整列したマルチビュー特徴の再構築に寄与する。
論文 参考訳(メタデータ) (2023-07-31T15:04:52Z) - DCN-T: Dual Context Network with Transformer for Hyperspectral Image
Classification [109.09061514799413]
複雑な撮像条件による空間変動のため,HSI分類は困難である。
本稿では,HSIを高品質な三スペクトル画像に変換する三スペクトル画像生成パイプラインを提案する。
提案手法は,HSI分類における最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-04-19T18:32:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。