論文の概要: Where We Are and What We're Looking At: Query Based Worldwide Image
Geo-localization Using Hierarchies and Scenes
- arxiv url: http://arxiv.org/abs/2303.04249v1
- Date: Tue, 7 Mar 2023 21:47:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 15:55:45.354691
- Title: Where We Are and What We're Looking At: Query Based Worldwide Image
Geo-localization Using Hierarchies and Scenes
- Title(参考訳): 私たちが今どこにいるか,何を見ているのか -階層とシーンを用いたクエリベースのグローバルイメージジオローカライズ
- Authors: Brandon Clark, Alec Kerrigan, Parth Parag Kulkarni, Vicente Vivanco
Cepeda, Mubarak Shah
- Abstract要約: 地理的レベルの異なる関係を利用して、エンドツーエンドのトランスフォーマーベースのアーキテクチャを導入する。
4つの標準ジオローカライゼーションデータセット上で,アートストリートレベルの精度を実現する。
- 参考スコア(独自算出の注目度): 53.53712888703834
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Determining the exact latitude and longitude that a photo was taken is a
useful and widely applicable task, yet it remains exceptionally difficult
despite the accelerated progress of other computer vision tasks. Most previous
approaches have opted to learn a single representation of query images, which
are then classified at different levels of geographic granularity. These
approaches fail to exploit the different visual cues that give context to
different hierarchies, such as the country, state, and city level. To this end,
we introduce an end-to-end transformer-based architecture that exploits the
relationship between different geographic levels (which we refer to as
hierarchies) and the corresponding visual scene information in an image through
hierarchical cross-attention. We achieve this by learning a query for each
geographic hierarchy and scene type. Furthermore, we learn a separate
representation for different environmental scenes, as different scenes in the
same location are often defined by completely different visual features. We
achieve state of the art street level accuracy on 4 standard geo-localization
datasets : Im2GPS, Im2GPS3k, YFCC4k, and YFCC26k, as well as qualitatively
demonstrate how our method learns different representations for different
visual hierarchies and scenes, which has not been demonstrated in the previous
methods. These previous testing datasets mostly consist of iconic landmarks or
images taken from social media, which makes them either a memorization task, or
biased towards certain places. To address this issue we introduce a much harder
testing dataset, Google-World-Streets-15k, comprised of images taken from
Google Streetview covering the whole planet and present state of the art
results. Our code will be made available in the camera-ready version.
- Abstract(参考訳): 写真が撮影された正確な緯度と経度を決定することは有用で広く適用可能なタスクであるが、他のコンピュータビジョンタスクの進行が加速しているにもかかわらず、非常に難しい。
これまでのアプローチでは、クエリイメージの単一の表現を学習し、地理的な粒度の異なるレベルに分類した。
これらのアプローチは、国、州、都市レベルといった異なる階層にコンテキストを与える異なる視覚的な手がかりを活用できない。
この目的のために,階層的相互注意による画像内の異なる地理的レベル(階層と呼ぶ)と対応する視覚的シーン情報の関係を利用する,エンドツーエンドのトランスフォーマーベースのアーキテクチャを導入する。
地理階層とシーンタイプ毎にクエリを学習することで,これを実現する。
さらに,同じ場所の異なるシーンが全く異なる視覚的特徴によって定義されることが多いため,異なる環境シーンの別の表現を学習する。
我々は,Im2GPS,Im2GPS3k,YFCC4k,YFCC26kの4つの標準ジオローカライゼーションデータセット上で,アートストリートレベルの精度を実現するとともに,従来の方法では示されていない異なる視覚階層やシーンの異なる表現をどのように学習するかを定性的に示す。
これらの以前のテストデータセットは、主にソーシャルメディアから撮った象徴的なランドマークや画像で構成されており、記憶タスクや特定の場所に偏っている。
この問題に対処するため、私たちは、地球全体とアート結果の現状をカバーするGoogle Streetviewから撮影された画像からなる、はるかに難しいテストデータセットであるGoogle-World-Streets-15kを導入しました。
私たちのコードはカメラ対応バージョンで利用できます。
関連論文リスト
- CityGuessr: City-Level Video Geo-Localization on a Global Scale [54.371452373726584]
本稿では, 都市, 州, 国, 大陸を階層的に予測することを目的とした, グローバルな地平化の新たな課題を提案する。
この問題を解決するためのモデルをトレーニングするために、世界中をカバーした大規模なビデオデータセットは存在しない。
我々は、世界中の166都市から68,269の動画からなる新しいデータセット、CityGuessr68kを紹介した。
論文 参考訳(メタデータ) (2024-11-10T03:20:00Z) - G3: An Effective and Adaptive Framework for Worldwide Geolocalization Using Large Multi-Modality Models [40.69217368870192]
我々は、レトリーバル拡張世代(RAG)に基づく世界規模の地理的ローカライゼーションのための新しい枠組みを提案する。
G3は、ジオアライメント、ジオディバーシフィケーション、ジオビジュアライゼーションの3つのステップから構成される。
2つの確立されたデータセットの実験は、他の最先端手法と比較してG3の優位性を検証する。
論文 参考訳(メタデータ) (2024-05-23T15:37:06Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - Are Local Features All You Need for Cross-Domain Visual Place
Recognition? [13.519413608607781]
視覚的位置認識は、視覚的手がかりのみに基づいて画像の座標を予測することを目的としている。
近年の進歩にもかかわらず、クエリがかなり異なる分布から来るのと同じ場所を認識することは、依然として最先端の検索手法にとって大きなハードルである。
本研究では,空間的検証に基づく手法がこれらの課題に対処できるかどうかを考察する。
論文 参考訳(メタデータ) (2023-04-12T14:46:57Z) - G^3: Geolocation via Guidebook Grounding [92.46774241823562]
本研究では,人間が位置情報に用いている視覚的特徴を記述した人書きガイドブックから,明示的な知識について検討する。
多様な場所からのストリートビュー画像のデータセットを用いたガイドブックグラウンディングによるジオロケーションのタスクを提案する。
提案手法は,Top-1の精度が5%以上向上し,最先端の画像のみの位置決め法よりも大幅に向上する。
論文 参考訳(メタデータ) (2022-11-28T16:34:40Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Where in the World is this Image? Transformer-based Geo-localization in
the Wild [48.69031054573838]
世界各地で撮影された地上レベルのRGB画像から地理的位置(ジオローカライゼーション)を予測することは、非常に難しい問題です。
画像全体の細部を網羅する統合型デュアルブランチトランスネットワークであるTransLocatorを提案する。
我々は、Im2GPS、Im2GPS3k、YFCC4k、YFCC26kの4つのベンチマークデータセットでTransLocatorを評価し、5.5%、14.1%、4.9%、9.9%の大陸レベルの精度改善を得た。
論文 参考訳(メタデータ) (2022-04-29T03:27:23Z) - Location Sensitive Image Retrieval and Tagging [10.832389603397603]
LocSensは画像、タグ、座標の三つ子を可視性でランク付けするモデルである。
LocSensは画像、タグ、座標の三重項を可視性でランク付けするモデルであり、最終的なランク付けにおける位置の影響をバランス付けるための2つのトレーニング戦略である。
論文 参考訳(メタデータ) (2020-07-07T12:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。