論文の概要: MFAF: An EVA02-Based Multi-scale Frequency Attention Fusion Method for Cross-View Geo-Localization
- arxiv url: http://arxiv.org/abs/2509.12673v1
- Date: Tue, 16 Sep 2025 04:51:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.8965
- Title: MFAF: An EVA02-Based Multi-scale Frequency Attention Fusion Method for Cross-View Geo-Localization
- Title(参考訳): MFAF: クロスビュージオローカライゼーションのためのEVA02に基づくマルチスケール周波数アテンション融合法
- Authors: YiTong Liu, TianZhu Liu, YanFeng GU,
- Abstract要約: クロスビューなジオローカライゼーションは、クエリ画像の地理的位置を画像ギャラリーとマッチングすることで決定することを目的としている。
この課題は、変数ビューから観察される物体の顕著な外観変化と、識別的特徴の抽出が困難であるために困難である。
既存のアプローチは、空間情報や意味情報を無視しながら特徴マップのセグメンテーションを通じて特徴を抽出することに依存することが多い。
- 参考スコア(独自算出の注目度): 6.027431240137503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-view geo-localization aims to determine the geographical location of a query image by matching it against a gallery of images. This task is challenging due to the significant appearance variations of objects observed from variable views, along with the difficulty in extracting discriminative features. Existing approaches often rely on extracting features through feature map segmentation while neglecting spatial and semantic information. To address these issues, we propose the EVA02-based Multi-scale Frequency Attention Fusion (MFAF) method. The MFAF method consists of Multi-Frequency Branch-wise Block (MFB) and the Frequency-aware Spatial Attention (FSA) module. The MFB block effectively captures both low-frequency structural features and high-frequency edge details across multiple scales, improving the consistency and robustness of feature representations across various viewpoints. Meanwhile, the FSA module adaptively focuses on the key regions of frequency features, significantly mitigating the interference caused by background noise and viewpoint variability. Extensive experiments on widely recognized benchmarks, including University-1652, SUES-200, and Dense-UAV, demonstrate that the MFAF method achieves competitive performance in both drone localization and drone navigation tasks.
- Abstract(参考訳): クロスビューなジオローカライゼーションは、クエリ画像の地理的位置を画像ギャラリーとマッチングすることで決定することを目的としている。
この課題は、変数ビューから観察される物体の顕著な外観変化と、識別的特徴の抽出が困難であるために困難である。
既存のアプローチは、空間情報や意味情報を無視しながら特徴マップのセグメンテーションを通じて特徴を抽出することに依存することが多い。
これらの問題に対処するため,EVA02に基づくMFAF法を提案する。
MFAF法は、MFB(Multi-Frequency Branch-wise Block)とFSAモジュールで構成される。
MFBブロックは、複数のスケールにわたる低周波構造特徴と高周波エッジ詳細の両方を効果的に捕捉し、様々な視点における特徴表現の一貫性と堅牢性を向上させる。
一方、FSAモジュールは周波数特性の重要な領域に適応的に焦点を合わせ、背景雑音や視点変動による干渉を著しく軽減する。
University-1652、SUES-200、Dense-UAVなど、広く知られているベンチマークに関する広範な実験は、MFAF法がドローンのローカライゼーションとドローンナビゲーションの両方で競争力を発揮することを示した。
関連論文リスト
- Wavelet-Guided Dual-Frequency Encoding for Remote Sensing Change Detection [67.84730634802204]
リモートセンシング画像の変化検出は,自然災害監視,都市拡張追跡,インフラ管理など,さまざまな工学的応用において重要な役割を担っている。
既存のほとんどの手法は空間領域モデリングに依存しており、特徴表現の限られた多様性は微妙な変化領域の検出を妨げる。
本研究では、特にウェーブレット領域における周波数領域の特徴モデリングが周波数成分の微細な違いを増幅し、空間領域において捉えにくいエッジ変化の知覚を高めることを観察する。
論文 参考訳(メタデータ) (2025-08-07T11:14:16Z) - Generalizable Multispectral Land Cover Classification via Frequency-Aware Mixture of Low-Rank Token Experts [22.75047167955269]
マルチスペクトル土地被覆分類(MLCC)の新しいアプローチであるLand-MoEを紹介する。
Land-MoEは、低ランクトークンエキスパート(MoLTE)と周波数認識フィルタ(FAF)の2つの重要なモジュールから構成される。
論文 参考訳(メタデータ) (2025-05-20T08:52:28Z) - Adaptive Frequency Enhancement Network for Remote Sensing Image Semantic Segmentation [33.49405456617909]
本稿では、適応周波数と空間特徴の相互作用モジュール(AFSIM)と選択特徴の融合モジュール(SFM)の2つの重要なコンポーネントを統合した適応周波数拡張ネットワーク(AFENet)を提案する。
AFSIMは入力画像の内容に応じて、高周波数特徴と低周波特徴を動的に分離・変調する。
SFMは、ネットワークの表現能力を高めるために、グローバルコンテキストとローカル詳細機能を選択的に融合する。
論文 参考訳(メタデータ) (2025-04-03T14:42:49Z) - FMNet: Frequency-Assisted Mamba-Like Linear Attention Network for Camouflaged Object Detection [7.246630480680039]
カモフラージュ対象物検出(COD)は、カモフラージュ対象物とその周囲の強い類似性のために困難である。
既存の手法は主に空間的局所的特徴に依存しており、グローバルな情報を捉えていない。
周波数支援型マンバ様線形注意ネットワーク(FMNet)は,グローバルな特徴を効率的に捉えるために提案されている。
論文 参考訳(メタデータ) (2025-03-14T02:55:19Z) - Frequency-Spatial Entanglement Learning for Camouflaged Object Detection [34.426297468968485]
既存の手法では、複雑な設計で空間的特徴の識別能力を最大化することにより、画素類似性の影響を減らそうとしている。
本稿では,周波数領域と空間領域の表現を共同で探索し,周波数空間の絡み合い学習(FSEL)手法を提案する。
我々の実験は、広く使われている3つのデータセットにおける包括的量的および質的比較を通じて、21以上の最先端手法によるFSELの優位性を実証した。
論文 参考訳(メタデータ) (2024-09-03T07:58:47Z) - Frequency Domain Modality-invariant Feature Learning for
Visible-infrared Person Re-Identification [79.9402521412239]
本稿では、周波数領域から見たモダリティの相違を低減するために、新しい周波数領域モダリティ不変特徴学習フレームワーク(FDMNet)を提案する。
我々のフレームワークでは、インスタンス適応振幅フィルタ(IAF)とPhrase-Preserving Normalization(PPNorm)という、2つの新しいモジュールを導入している。
論文 参考訳(メタデータ) (2024-01-03T17:11:27Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Dense Affinity Matching for Few-Shot Segmentation [83.65203917246745]
Few-Shot (FSS) は、新しいクラスイメージをいくつかのサンプルで分割することを目的としている。
本稿では,サポートクエリ間の相互作用を生かした密接な親和性マッチングフレームワークを提案する。
我々のフレームワークは0.68万のパラメータしか持たない異なる設定で非常に競争力のある性能を示す。
論文 参考訳(メタデータ) (2023-07-17T12:27:15Z) - Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。
我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-27T14:25:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。