論文の概要: JRN-Geo: A Joint Perception Network based on RGB and Normal images for Cross-view Geo-localization
- arxiv url: http://arxiv.org/abs/2509.05696v1
- Date: Sat, 06 Sep 2025 12:11:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.654519
- Title: JRN-Geo: A Joint Perception Network based on RGB and Normal images for Cross-view Geo-localization
- Title(参考訳): JRN-Geo:RGBと標準画像を用いた共同認識ネットワーク
- Authors: Hongyu Zhou, Yunzhou Zhang, Tingsong Huang, Fawei Ge, Man Qi, Xichen Zhang, Yizhong Zhang,
- Abstract要約: クロスビューのジオローカライゼーションは、無人航空機(UAV)のローカライゼーションとナビゲーションにおいて重要な役割を担っている。
既存の手法は主にRGB画像のセマンティックな特徴に依存している。
RGBと正規画像を統合するための統合知覚ネットワークを導入する。
- 参考スコア(独自算出の注目度): 26.250213248316342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-view geo-localization plays a critical role in Unmanned Aerial Vehicle (UAV) localization and navigation. However, significant challenges arise from the drastic viewpoint differences and appearance variations between images. Existing methods predominantly rely on semantic features from RGB images, often neglecting the importance of spatial structural information in capturing viewpoint-invariant features. To address this issue, we incorporate geometric structural information from normal images and introduce a Joint perception network to integrate RGB and Normal images (JRN-Geo). Our approach utilizes a dual-branch feature extraction framework, leveraging a Difference-Aware Fusion Module (DAFM) and Joint-Constrained Interaction Aggregation (JCIA) strategy to enable deep fusion and joint-constrained semantic and structural information representation. Furthermore, we propose a 3D geographic augmentation technique to generate potential viewpoint variation samples, enhancing the network's ability to learn viewpoint-invariant features. Extensive experiments on the University-1652 and SUES-200 datasets validate the robustness of our method against complex viewpoint ariations, achieving state-of-the-art performance.
- Abstract(参考訳): クロスビューのジオローカライゼーションは、無人航空機(UAV)のローカライゼーションとナビゲーションにおいて重要な役割を担っている。
しかし、画像間の劇的な視点の違いと外観の違いから大きな課題が生じる。
既存の手法は主にRGB画像のセマンティックな特徴に依存しており、視点不変の特徴を捉える際に空間構造情報の重要性を無視することが多い。
この問題に対処するため,通常の画像からの幾何学的構造情報を組み込んで,RGB と正規画像(JRN-Geo)を統合するジョイント知覚ネットワークを導入する。
本手法では,差分認識融合モジュール (DAFM) と統合制約相互作用集約 (JCIA) 戦略を利用して,深部融合と統合制約意味・構造情報表現を実現する。
さらに,潜在的視点変動サンプルを生成するための3次元地理的拡張手法を提案し,視点不変の特徴を学習するネットワークの能力を向上させる。
大学1652とSUES-200のデータセットに対する大規模な実験は、我々の手法が複雑な視点のアリゲーションに対して堅牢であることを評価し、最先端の性能を達成する。
関連論文リスト
- GCRPNet: Graph-Enhanced Contextual and Regional Perception Network For Salient Object Detection in Optical Remote Sensing Images [68.33481681452675]
本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。
これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。
マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
論文 参考訳(メタデータ) (2025-08-14T11:31:43Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Multi-Spectral Image Stitching via Spatial Graph Reasoning [52.27796682972484]
空間グラフ推論に基づくマルチスペクトル画像縫合法を提案する。
同一のビュー位置から複数スケールの補完機能をノードに埋め込む。
空間的・チャネル的次元に沿った長距離コヒーレンスを導入することにより、画素関係の相補性とチャネル相互依存性は、整列したマルチビュー特徴の再構築に寄与する。
論文 参考訳(メタデータ) (2023-07-31T15:04:52Z) - DCN-T: Dual Context Network with Transformer for Hyperspectral Image
Classification [109.09061514799413]
複雑な撮像条件による空間変動のため,HSI分類は困難である。
本稿では,HSIを高品質な三スペクトル画像に変換する三スペクトル画像生成パイプラインを提案する。
提案手法は,HSI分類における最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-04-19T18:32:52Z) - Simple, Effective and General: A New Backbone for Cross-view Image
Geo-localization [9.687328460113832]
我々は、シンプルな注意に基づく画像ジオローカライゼーションネットワーク(SAIG)という新しいバックボーンネットワークを提案する。
提案したSAIGは、パッチ間の長距離相互作用と、マルチヘッド・セルフアテンション・レイヤとのクロスビュー対応を効果的に表現する。
我々のSAIGは、従来よりもはるかにシンプルでありながら、クロスビューなジオローカライゼーションにおける最先端の成果を達成している。
論文 参考訳(メタデータ) (2023-02-03T06:50:51Z) - Co-visual pattern augmented generative transformer learning for
automobile geo-localization [12.449657263683337]
クロスビュージオローカライゼーション(CVGL)は、地上カメラの地理的位置を、巨大なジオタグ付き空中画像とマッチングすることによって推定することを目的としている。
CVGLのための相互生成型トランスフォーマー学習(MGTL)という,トランスフォーマーと組み合わせたクロスビュー知識生成技術を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T07:29:02Z) - Cross-view Geo-localization with Evolving Transformer [7.5800316275498645]
クロスビューなジオローカライゼーションは、視界の劇的な外観と幾何学的差異のために困難である。
本研究では,Transformerにおける自己アテンションの特性を利用してグローバルな依存関係をモデル化する新しいジオローカライゼーショントランスフォーマー(EgoTR)を提案する。
我々のEgoTRは、標準的な、きめ細かな、そして、クロスデータセットなジオローカライゼーションタスクにおいて、最先端の手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2021-07-02T05:33:14Z) - Spatial--spectral FFPNet: Attention-Based Pyramid Network for
Segmentation and Classification of Remote Sensing Images [12.320585790097415]
本研究では,リモートセンシングデータセットのセグメンテーションと分類のためのアテンションベースのピラミッドネットワークを開発する。
ISPRS Vaihingen と ISPRS Potsdam の高分解能データセットを用いて行った実験は、提案した重み空間FFPNetによる競合セグメンテーション精度を示す。
論文 参考訳(メタデータ) (2020-08-20T04:55:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。