論文の概要: Simple, Effective and General: A New Backbone for Cross-view Image
Geo-localization
- arxiv url: http://arxiv.org/abs/2302.01572v1
- Date: Fri, 3 Feb 2023 06:50:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-06 17:03:04.637277
- Title: Simple, Effective and General: A New Backbone for Cross-view Image
Geo-localization
- Title(参考訳): simple, effective, general: cross-view image geo-localization のための新しいバックボーン
- Authors: Yingying Zhu, Hongji Yang, Yuxin Lu and Qiang Huang
- Abstract要約: 我々は、シンプルな注意に基づく画像ジオローカライゼーションネットワーク(SAIG)という新しいバックボーンネットワークを提案する。
提案したSAIGは、パッチ間の長距離相互作用と、マルチヘッド・セルフアテンション・レイヤとのクロスビュー対応を効果的に表現する。
我々のSAIGは、従来よりもはるかにシンプルでありながら、クロスビューなジオローカライゼーションにおける最先端の成果を達成している。
- 参考スコア(独自算出の注目度): 9.687328460113832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we aim at an important but less explored problem of a simple
yet effective backbone specific for cross-view geo-localization task. Existing
methods for cross-view geo-localization tasks are frequently characterized by
1) complicated methodologies, 2) GPU-consuming computations, and 3) a stringent
assumption that aerial and ground images are centrally or orientation aligned.
To address the above three challenges for cross-view image matching, we propose
a new backbone network, named Simple Attention-based Image Geo-localization
network (SAIG). The proposed SAIG effectively represents long-range
interactions among patches as well as cross-view correspondence with multi-head
self-attention layers. The "narrow-deep" architecture of our SAIG improves the
feature richness without degradation in performance, while its shallow and
effective convolutional stem preserves the locality, eliminating the loss of
patchify boundary information. Our SAIG achieves state-of-the-art results on
cross-view geo-localization, while being far simpler than previous works.
Furthermore, with only 15.9% of the model parameters and half of the output
dimension compared to the state-of-the-art, the SAIG adapts well across
multiple cross-view datasets without employing any well-designed feature
aggregation modules or feature alignment algorithms. In addition, our SAIG
attains competitive scores on image retrieval benchmarks, further demonstrating
its generalizability. As a backbone network, our SAIG is both easy to follow
and computationally lightweight, which is meaningful in practical scenario.
Moreover, we propose a simple Spatial-Mixed feature aggregation moDule (SMD)
that can mix and project spatial information into a low-dimensional space to
generate feature descriptors... (The code is available at
https://github.com/yanghongji2007/SAIG)
- Abstract(参考訳): 本研究では,クロスビューなジオローカライゼーションタスクに特有な,シンプルで効果的なバックボーンの問題について検討する。
クロスビューなジオローカライズタスクの既存手法は、しばしば特徴付けられる。
1)複雑な方法論
2)GPU消費計算、及び
3) 空中画像と地上画像が中心的又は向きが整っているという厳密な仮定。
上記の3つの課題を解決するために,我々はsimple attention-based image geo-localization network (saig) という新しいバックボーンネットワークを提案する。
提案したSAIGは、パッチ間の長距離相互作用と、マルチヘッド自己注意層とのクロスビュー対応を効果的に表現する。
当社のサイグの"ナローディープ"アーキテクチャは性能の低下を伴わずに機能の豊かさを向上させる一方で,浅く効果的な畳み込みステムは局所性を保ち,境界情報のパッチ化の損失をなくす。
我々のSAIGは、従来よりもはるかにシンプルでありながら、クロスビューなジオローカライゼーションにおける最先端の成果を達成する。
さらに、モデルパラメータの15.9%と出力ディメンションの半数しか最先端のものと比較して、SAIGはよく設計された機能集約モジュールや特徴アライメントアルゴリズムを使わずに、複数のクロスビューデータセットに順応する。
さらに,このSAIGは画像検索ベンチマークの競合点を獲得し,その一般化性を示す。
バックボーンネットワークとして、我々のSAIGは簡単に追従でき、計算的にも軽量であり、現実的なシナリオにおいて有意義である。
さらに,空間情報を低次元空間に混合・投影して特徴記述子を生成する,SMD (Spatial-Mixed Feature aggregate moDule) を提案する(このコードはhttps://github.com/yanghongji 2007/SAIGで公開されている)。
関連論文リスト
- SpaGBOL: Spatial-Graph-Based Orientated Localisation [15.324623975476348]
都市域内のクロスビューなジオローカライゼーションは、現在のデータセットや技術に空間的構造が欠如していることから、部分的には困難である。
本稿では,局所的な観測のシーケンスをモデル化するためのグラフ表現の利用と,対象位置の接続性を提案する。
論文 参考訳(メタデータ) (2024-09-23T20:04:29Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Sample4Geo: Hard Negative Sampling For Cross-View Geo-Localisation [2.3020018305241337]
対称なInfoNCE損失を伴うコントラスト学習に基づく,シンプルだが効果的なアーキテクチャを提案する。
私たちのフレームワークは、アグリゲーションモジュールの使用を不要にする、狭いトレーニングパイプラインで構成されています。
本研究は,CVUSA,CVACT,University-1652,VIGORなどの一般的なクロスビューデータセットに対して,優れた性能を示す。
論文 参考訳(メタデータ) (2023-03-21T13:49:49Z) - Cross-view Geo-localization via Learning Disentangled Geometric Layout
Correspondence [11.823147814005411]
クロスビュージオローカライゼーションは、参照ジオタグ付き空中画像データベースとマッチングすることで、クエリーグラウンド画像の位置を推定することを目的としている。
最近の研究は、クロスビューなジオローカライゼーションベンチマークにおいて顕著な進歩を遂げている。
しかし、既存の手法は依然としてクロスエリアベンチマークのパフォーマンスの低下に悩まされている。
論文 参考訳(メタデータ) (2022-12-08T04:54:01Z) - HSGNet: Object Re-identification with Hierarchical Similarity Graph
Network [0.7406388656098399]
オブジェクトの再識別方法は、バックボーンネットワーク、特徴集約、損失関数から構成される。
バックボーンと再識別ネットワークの競合を軽減するために,階層的類似性グラフモジュール(HSGM)を設計する。
我々は,HSGMをバックボーンネットワークに埋め込むことにより,新しい階層型類似性グラフネットワーク(HSGNet)を開発した。
論文 参考訳(メタデータ) (2022-11-10T11:02:40Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z) - Low-Rank Subspaces in GANs [101.48350547067628]
この研究は、GAN生成をより正確に制御できる低ランクな部分空間を導入している。
LowRankGAN は属性多様体の低次元表現を見つけることができる。
さまざまなデータセットでトレーニングされた最先端のGANモデル(StyleGAN2やBigGANなど)の実験は、私たちのLowRankGANの有効性を示しています。
論文 参考訳(メタデータ) (2021-06-08T16:16:32Z) - Multi-Level Graph Convolutional Network with Automatic Graph Learning
for Hyperspectral Image Classification [63.56018768401328]
HSI分類のための自動グラフ学習法(MGCN-AGL)を用いたマルチレベルグラフ畳み込みネットワーク(GCN)を提案する。
空間的に隣接する領域における重要度を特徴付けるために注意機構を利用することで、最も関連性の高い情報を適応的に組み込んで意思決定を行うことができる。
MGCN-AGLは局所的に生成した表現表現に基づいて画像領域間の長距離依存性を符号化する。
論文 参考訳(メタデータ) (2020-09-19T09:26:20Z) - Each Part Matters: Local Patterns Facilitate Cross-view Geo-localization [54.00111565818903]
クロスビューなジオローカライゼーションは、異なるプラットフォームから同じ地理的ターゲットの画像を見つけることである。
既存の手法は通常、画像センター内の地理的ターゲットの微細な特徴をマイニングすることに集中している。
我々は、文脈情報を活用するために、ローカルパターンネットワーク(LPN)と呼ばれるシンプルで効果的なディープニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-08-26T16:06:11Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。