論文の概要: Hierarchical Attention Fusion for Geo-Localization
- arxiv url: http://arxiv.org/abs/2102.09186v1
- Date: Thu, 18 Feb 2021 07:07:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-19 21:58:21.983924
- Title: Hierarchical Attention Fusion for Geo-Localization
- Title(参考訳): ジオローカリゼーションのための階層的注意融合
- Authors: Liqi Yan, Yiming Cui, Yingjie Chen, Dongfang Liu
- Abstract要約: 地理的ローカライゼーションのためのマルチスケール特徴を用いた階層型アテンション融合ネットワークを提案する。
畳み込みニューラルネットワーク(cnn)から階層的特徴マップを抽出し,抽出した特徴を画像表現に有機的に融合する。
学習は適応重みを用いて自己監督され,各階層レベルから特徴強調の注意を制御できる。
- 参考スコア(独自算出の注目度): 7.544917072241684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Geo-localization is a critical task in computer vision. In this work, we cast
the geo-localization as a 2D image retrieval task. Current state-of-the-art
methods for 2D geo-localization are not robust to locate a scene with drastic
scale variations because they only exploit features from one semantic level for
image representations. To address this limitation, we introduce a hierarchical
attention fusion network using multi-scale features for geo-localization. We
extract the hierarchical feature maps from a convolutional neural network (CNN)
and organically fuse the extracted features for image representations. Our
training is self-supervised using adaptive weights to control the attention of
feature emphasis from each hierarchical level. Evaluation results on the image
retrieval and the large-scale geo-localization benchmarks indicate that our
method outperforms the existing state-of-the-art methods. Code is available
here: \url{https://github.com/YanLiqi/HAF}.
- Abstract(参考訳): ジオローカリゼーションはコンピュータビジョンにおいて重要なタスクです。
本研究では2次元画像検索タスクとしてジオローカライズを行った。
2Dジオローカリゼーションの現在の最先端の方法は、イメージ表現の1つのセマンティックレベルからのみ機能を利用するため、劇的なスケールバリエーションのあるシーンを見つけるには堅牢ではありません。
この制限に対処するため、ジオローカリゼーションのためのマルチスケール機能を使用した階層的注目融合ネットワークを紹介します。
畳み込みニューラルネットワーク(cnn)から階層的特徴マップを抽出し,抽出した特徴を画像表現に有機的に融合する。
学習は適応重みを用いて自己監督され,各階層レベルから特徴強調の注意を制御できる。
画像検索と大規模ジオローカリゼーションベンチマークの評価結果から,本手法が既存の最新手法を上回っていることが示唆された。
コードはここにある: \url{https://github.com/YanLiqi/HAF}。
関連論文リスト
- Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - G3: An Effective and Adaptive Framework for Worldwide Geolocalization Using Large Multi-Modality Models [40.69217368870192]
我々は、レトリーバル拡張世代(RAG)に基づく世界規模の地理的ローカライゼーションのための新しい枠組みを提案する。
G3は、ジオアライメント、ジオディバーシフィケーション、ジオビジュアライゼーションの3つのステップから構成される。
2つの確立されたデータセットの実験は、他の最先端手法と比較してG3の優位性を検証する。
論文 参考訳(メタデータ) (2024-05-23T15:37:06Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - Yes, we CANN: Constrained Approximate Nearest Neighbors for local
feature-based visual localization [2.915868985330569]
Constrained Approximate Nearest Neighbors (CANN) は、局所的特徴のみを用いて、幾何学と外観空間の両方にわたって k-アネレスト近傍の合同解である。
提案手法は,現在最先端のグローバルな特徴量検索と,局所的な特徴量集計手法を用いたアプローチの両方に優れる。
論文 参考訳(メタデータ) (2023-06-15T10:12:10Z) - G^3: Geolocation via Guidebook Grounding [92.46774241823562]
本研究では,人間が位置情報に用いている視覚的特徴を記述した人書きガイドブックから,明示的な知識について検討する。
多様な場所からのストリートビュー画像のデータセットを用いたガイドブックグラウンディングによるジオロケーションのタスクを提案する。
提案手法は,Top-1の精度が5%以上向上し,最先端の画像のみの位置決め法よりも大幅に向上する。
論文 参考訳(メタデータ) (2022-11-28T16:34:40Z) - Where in the World is this Image? Transformer-based Geo-localization in
the Wild [48.69031054573838]
世界各地で撮影された地上レベルのRGB画像から地理的位置(ジオローカライゼーション)を予測することは、非常に難しい問題です。
画像全体の細部を網羅する統合型デュアルブランチトランスネットワークであるTransLocatorを提案する。
我々は、Im2GPS、Im2GPS3k、YFCC4k、YFCC26kの4つのベンチマークデータセットでTransLocatorを評価し、5.5%、14.1%、4.9%、9.9%の大陸レベルの精度改善を得た。
論文 参考訳(メタデータ) (2022-04-29T03:27:23Z) - Revisiting Near/Remote Sensing with Geospatial Attention [24.565068569913382]
本研究は、地上レベルの補助画像が利用できる場合のオーバーヘッド画像分割の課題に対処する。
近年の研究では、近接・遠隔センシングと呼ばれる2つのモードで共同推論を行うことで、精度が大幅に向上することが示されている。
地平面画像中の画素と地理的位置との地理空間的関係を明確に考察する幾何学的注意機構である地理空間的注意の概念を導入する。
論文 参考訳(メタデータ) (2022-04-04T19:19:50Z) - Viewpoint Invariant Dense Matching for Visual Geolocalization [15.8038460597256]
本研究では,局所的特徴量に基づく画像マッチング手法を提案する。
我々の手法はGeoWarpと呼ばれ、高密度な特徴を抽出する過程において、視点シフトへの不変性を直接埋め込む。
GeoWarpは、既存の視覚的ジオローカライゼーションパイプラインに簡単に組み込むことができる、リグレードメソッドとして効率的に実装されている。
論文 参考訳(メタデータ) (2021-09-20T20:17:38Z) - Multi-Level Graph Convolutional Network with Automatic Graph Learning
for Hyperspectral Image Classification [63.56018768401328]
HSI分類のための自動グラフ学習法(MGCN-AGL)を用いたマルチレベルグラフ畳み込みネットワーク(GCN)を提案する。
空間的に隣接する領域における重要度を特徴付けるために注意機構を利用することで、最も関連性の高い情報を適応的に組み込んで意思決定を行うことができる。
MGCN-AGLは局所的に生成した表現表現に基づいて画像領域間の長距離依存性を符号化する。
論文 参考訳(メタデータ) (2020-09-19T09:26:20Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。