論文の概要: Multi-Level Embedding and Alignment Network with Consistency and Invariance Learning for Cross-View Geo-Localization
- arxiv url: http://arxiv.org/abs/2412.14819v2
- Date: Fri, 03 Jan 2025 05:05:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:09:37.098624
- Title: Multi-Level Embedding and Alignment Network with Consistency and Invariance Learning for Cross-View Geo-Localization
- Title(参考訳): クロスビュージオローカライゼーションのための一貫性と不変性学習を備えたマルチレベル埋め込み・アライメントネットワーク
- Authors: Zhongwei Chen, Zhao-Xu Yang, Hai-Jun Rong,
- Abstract要約: CVGL(Cross-View Geo-Localization)は、最もよく似たGPSタグ付き衛星画像を取得することで、ドローン画像のローカライゼーションを決定する。
既存の手法は、モデルの性能を改善する際に、計算と記憶の要求が増大する問題をしばしば見落としている。
マルチレベル・エンベディング・アライメント・ネットワーク(MEAN)と呼ばれる軽量なアライメント・ネットワークを提案する。
- 参考スコア(独自算出の注目度): 2.733505168507872
- License:
- Abstract: Cross-View Geo-Localization (CVGL) involves determining the localization of drone images by retrieving the most similar GPS-tagged satellite images. However, the imaging gaps between platforms are often significant and the variations in viewpoints are substantial, which limits the ability of existing methods to effectively associate cross-view features and extract consistent and invariant characteristics. Moreover, existing methods often overlook the problem of increased computational and storage requirements when improving model performance. To handle these limitations, we propose a lightweight enhanced alignment network, called the Multi-Level Embedding and Alignment Network (MEAN). The MEAN network uses a progressive multi-level enhancement strategy, global-to-local associations, and cross-domain alignment, enabling feature communication across levels. This allows MEAN to effectively connect features at different levels and learn robust cross-view consistent mappings and modality-invariant features. Moreover, MEAN adopts a shallow backbone network combined with a lightweight branch design, effectively reducing parameter count and computational complexity. Experimental results on the University-1652 and SUES-200 datasets demonstrate that MEAN reduces parameter count by 62.17% and computational complexity by 70.99% compared to state-of-the-art models, while maintaining competitive or even superior performance. Our code and models will be released on https://github.com/ISChenawei/MEAN.
- Abstract(参考訳): CVGL(Cross-View Geo-Localization)は、最もよく似たGPSタグ付き衛星画像を取得することで、ドローン画像のローカライゼーションを決定する。
しかし、プラットフォーム間の画像ギャップは、しばしば重要であり、視点のばらつきがかなり大きいため、既存の手法が、クロスビューの特徴を効果的に関連付け、一貫性のある、不変な特徴を抽出する能力を制限する。
さらに、既存の手法は、モデル性能を改善する際に、計算と記憶の要求が増大する問題をしばしば見落としている。
これらの制約に対処するため,マルチレベル・エンベディング・アライメント・ネットワーク(MEAN)と呼ばれる軽量なアライメント・ネットワークを提案する。
MEANネットワークは、プログレッシブなマルチレベルエンハンスメント戦略、グローバル-ローカルアソシエーション、ドメイン間アライメントを使用して、レベル間の機能通信を可能にする。
これによりMEANは、異なるレベルの機能を効果的に接続し、堅牢な相互ビューの一貫性のあるマッピングとモダリティ不変の機能を学ぶことができる。
さらにMEANは、浅いバックボーンネットワークと軽量な分岐設計を採用し、パラメータ数と計算複雑性を効果的に低減する。
ユニバーシティ1652とSUES-200データセットの実験結果は、MEANがパラメータ数を62.17%削減し、計算複雑性を70.99%削減することを示した。
私たちのコードとモデルはhttps://github.com/ISChenawei/MEAN.comでリリースされます。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - ClusVPR: Efficient Visual Place Recognition with Clustering-based
Weighted Transformer [13.0858576267115]
ClusVPRは重複する領域における冗長な情報の特定の問題と、小さなオブジェクトの表現に対処する新しいアプローチである。
ClusVPRはClustering-based weighted Transformer Network (CWTNet)と呼ばれるユニークなパラダイムを導入した
また,パラメータ数を大幅に削減し,モデル効率を向上させる最適化VLAD層を導入する。
論文 参考訳(メタデータ) (2023-10-06T09:01:15Z) - Cross-Spatial Pixel Integration and Cross-Stage Feature Fusion Based
Transformer Network for Remote Sensing Image Super-Resolution [13.894645293832044]
変換器を用いたモデルでは、リモートセンシング画像超解像(RSISR)の競合性能が示されている。
本稿では,RSISRのための新しいトランスアーキテクチャであるCross-Spatial Pixel IntegrationとCross-Stage Feature Fusion Based Transformer Network (SPIFFNet)を提案する。
提案手法は,画像全体のグローバル認知と理解を効果的に促進し,機能統合の効率化を図っている。
論文 参考訳(メタデータ) (2023-07-06T13:19:06Z) - Simple, Effective and General: A New Backbone for Cross-view Image
Geo-localization [9.687328460113832]
我々は、シンプルな注意に基づく画像ジオローカライゼーションネットワーク(SAIG)という新しいバックボーンネットワークを提案する。
提案したSAIGは、パッチ間の長距離相互作用と、マルチヘッド・セルフアテンション・レイヤとのクロスビュー対応を効果的に表現する。
我々のSAIGは、従来よりもはるかにシンプルでありながら、クロスビューなジオローカライゼーションにおける最先端の成果を達成している。
論文 参考訳(メタデータ) (2023-02-03T06:50:51Z) - Multi-agent Reinforcement Learning with Graph Q-Networks for Antenna
Tuning [60.94661435297309]
モバイルネットワークの規模は、手作業による介入や手作業による戦略を使ってアンテナパラメータの最適化を困難にしている。
本研究では,モバイルネットワーク構成をグローバルに最適化するマルチエージェント強化学習アルゴリズムを提案する。
シミュレーション環境におけるアンテナ傾き調整問題とジョイント傾き・電力制御問題に対するアルゴリズムの性能を実証的に示す。
論文 参考訳(メタデータ) (2023-01-20T17:06:34Z) - Semantic Labeling of High Resolution Images Using EfficientUNets and
Transformers [5.177947445379688]
畳み込みニューラルネットワークとディープトランスを組み合わせた新しいセグメンテーションモデルを提案する。
提案手法は,最先端技術と比較してセグメント化精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-20T12:03:54Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z) - LocalTrans: A Multiscale Local Transformer Network for Cross-Resolution
Homography Estimation [52.63874513999119]
クロスレゾリューション画像アライメントは、マルチスケールギガ撮影において重要な問題である。
既存のディープ・ホモグラフィー手法は、それらの間の対応の明示的な定式化を無視し、クロスレゾリューションの課題において精度が低下する。
本稿では,マルチモーダル入力間の対応性を明確に学習するために,マルチスケール構造内に埋め込まれたローカルトランスフォーマーネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-08T02:51:45Z) - Sequential Hierarchical Learning with Distribution Transformation for
Image Super-Resolution [83.70890515772456]
画像SRのための逐次階層学習型超解像ネットワーク(SHSR)を構築した。
特徴のスケール間相関を考察し、階層的情報を段階的に探索するシーケンシャルなマルチスケールブロック(SMB)を考案する。
実験結果から,SHSRは最先端手法に優れた定量的性能と視覚的品質が得られることが示された。
論文 参考訳(メタデータ) (2020-07-19T01:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。