論文の概要: Where We Are and What We're Looking At: Query Based Worldwide Image
Geo-localization Using Hierarchies and Scenes
- arxiv url: http://arxiv.org/abs/2303.04249v1
- Date: Tue, 7 Mar 2023 21:47:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 15:55:45.354691
- Title: Where We Are and What We're Looking At: Query Based Worldwide Image
Geo-localization Using Hierarchies and Scenes
- Title(参考訳): 私たちが今どこにいるか,何を見ているのか -階層とシーンを用いたクエリベースのグローバルイメージジオローカライズ
- Authors: Brandon Clark, Alec Kerrigan, Parth Parag Kulkarni, Vicente Vivanco
Cepeda, Mubarak Shah
- Abstract要約: 地理的レベルの異なる関係を利用して、エンドツーエンドのトランスフォーマーベースのアーキテクチャを導入する。
4つの標準ジオローカライゼーションデータセット上で,アートストリートレベルの精度を実現する。
- 参考スコア(独自算出の注目度): 53.53712888703834
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Determining the exact latitude and longitude that a photo was taken is a
useful and widely applicable task, yet it remains exceptionally difficult
despite the accelerated progress of other computer vision tasks. Most previous
approaches have opted to learn a single representation of query images, which
are then classified at different levels of geographic granularity. These
approaches fail to exploit the different visual cues that give context to
different hierarchies, such as the country, state, and city level. To this end,
we introduce an end-to-end transformer-based architecture that exploits the
relationship between different geographic levels (which we refer to as
hierarchies) and the corresponding visual scene information in an image through
hierarchical cross-attention. We achieve this by learning a query for each
geographic hierarchy and scene type. Furthermore, we learn a separate
representation for different environmental scenes, as different scenes in the
same location are often defined by completely different visual features. We
achieve state of the art street level accuracy on 4 standard geo-localization
datasets : Im2GPS, Im2GPS3k, YFCC4k, and YFCC26k, as well as qualitatively
demonstrate how our method learns different representations for different
visual hierarchies and scenes, which has not been demonstrated in the previous
methods. These previous testing datasets mostly consist of iconic landmarks or
images taken from social media, which makes them either a memorization task, or
biased towards certain places. To address this issue we introduce a much harder
testing dataset, Google-World-Streets-15k, comprised of images taken from
Google Streetview covering the whole planet and present state of the art
results. Our code will be made available in the camera-ready version.
- Abstract(参考訳): 写真が撮影された正確な緯度と経度を決定することは有用で広く適用可能なタスクであるが、他のコンピュータビジョンタスクの進行が加速しているにもかかわらず、非常に難しい。
これまでのアプローチでは、クエリイメージの単一の表現を学習し、地理的な粒度の異なるレベルに分類した。
これらのアプローチは、国、州、都市レベルといった異なる階層にコンテキストを与える異なる視覚的な手がかりを活用できない。
この目的のために,階層的相互注意による画像内の異なる地理的レベル(階層と呼ぶ)と対応する視覚的シーン情報の関係を利用する,エンドツーエンドのトランスフォーマーベースのアーキテクチャを導入する。
地理階層とシーンタイプ毎にクエリを学習することで,これを実現する。
さらに,同じ場所の異なるシーンが全く異なる視覚的特徴によって定義されることが多いため,異なる環境シーンの別の表現を学習する。
我々は,Im2GPS,Im2GPS3k,YFCC4k,YFCC26kの4つの標準ジオローカライゼーションデータセット上で,アートストリートレベルの精度を実現するとともに,従来の方法では示されていない異なる視覚階層やシーンの異なる表現をどのように学習するかを定性的に示す。
これらの以前のテストデータセットは、主にソーシャルメディアから撮った象徴的なランドマークや画像で構成されており、記憶タスクや特定の場所に偏っている。
この問題に対処するため、私たちは、地球全体とアート結果の現状をカバーするGoogle Streetviewから撮影された画像からなる、はるかに難しいテストデータセットであるGoogle-World-Streets-15kを導入しました。
私たちのコードはカメラ対応バージョンで利用できます。
関連論文リスト
- GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - PIGEON: Predicting Image Geolocations [49.1574468325115]
本稿では, セマンティックジオセル生成, マルチタスクコントラスト事前学習, 新たな損失関数を組み合わせた新しいジオローカライズシステムを提案する。
PIGEOTTOは、目に見えない場所に効果的に一般化する最初の画像ジオローカライズモデルである。
論文 参考訳(メタデータ) (2023-07-11T23:36:49Z) - Are Local Features All You Need for Cross-Domain Visual Place
Recognition? [13.519413608607781]
視覚的位置認識は、視覚的手がかりのみに基づいて画像の座標を予測することを目的としている。
近年の進歩にもかかわらず、クエリがかなり異なる分布から来るのと同じ場所を認識することは、依然として最先端の検索手法にとって大きなハードルである。
本研究では,空間的検証に基づく手法がこれらの課題に対処できるかどうかを考察する。
論文 参考訳(メタデータ) (2023-04-12T14:46:57Z) - G^3: Geolocation via Guidebook Grounding [92.46774241823562]
本研究では,人間が位置情報に用いている視覚的特徴を記述した人書きガイドブックから,明示的な知識について検討する。
多様な場所からのストリートビュー画像のデータセットを用いたガイドブックグラウンディングによるジオロケーションのタスクを提案する。
提案手法は,Top-1の精度が5%以上向上し,最先端の画像のみの位置決め法よりも大幅に向上する。
論文 参考訳(メタデータ) (2022-11-28T16:34:40Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [144.38869017091199]
画像分類における視覚変換器(ViT)は、視覚表現学習の方法論をシフトさせている。
本研究では、高密度視覚予測のためのVTのグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Where in the World is this Image? Transformer-based Geo-localization in
the Wild [48.69031054573838]
世界各地で撮影された地上レベルのRGB画像から地理的位置(ジオローカライゼーション)を予測することは、非常に難しい問題です。
画像全体の細部を網羅する統合型デュアルブランチトランスネットワークであるTransLocatorを提案する。
我々は、Im2GPS、Im2GPS3k、YFCC4k、YFCC26kの4つのベンチマークデータセットでTransLocatorを評価し、5.5%、14.1%、4.9%、9.9%の大陸レベルの精度改善を得た。
論文 参考訳(メタデータ) (2022-04-29T03:27:23Z) - VIGOR: Cross-View Image Geo-localization beyond One-to-one Retrieval [19.239311087570318]
クロスビュー画像のジオローカライゼーションは,空中からのGPSタグ付き参照画像とマッチングすることで,ストリートビュー検索画像の位置を決定することを目的としている。
最近の研究は、都市規模データセットの驚くほど高い検索精度を実現している。
我々は,1対1の検索範囲を超えて,画像の地理的局所化を行うための大規模ベンチマークであるVIGORを提案する。
論文 参考訳(メタデータ) (2020-11-24T15:50:54Z) - Location Sensitive Image Retrieval and Tagging [10.832389603397603]
LocSensは画像、タグ、座標の三つ子を可視性でランク付けするモデルである。
LocSensは画像、タグ、座標の三重項を可視性でランク付けするモデルであり、最終的なランク付けにおける位置の影響をバランス付けるための2つのトレーニング戦略である。
論文 参考訳(メタデータ) (2020-07-07T12:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。