論文の概要: PIGEON: Predicting Image Geolocations
- arxiv url: http://arxiv.org/abs/2307.05845v4
- Date: Sun, 17 Dec 2023 12:10:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 20:32:39.308860
- Title: PIGEON: Predicting Image Geolocations
- Title(参考訳): PIGEON:画像位置情報の予測
- Authors: Lukas Haas, Michal Skreta, Silas Alberti, Chelsea Finn
- Abstract要約: 本稿では, セマンティックジオセル生成, マルチタスクコントラスト事前学習, 新たな損失関数を組み合わせた新しいジオローカライズシステムを提案する。
PIGEOTTOは、目に見えない場所に効果的に一般化する最初の画像ジオローカライズモデルである。
- 参考スコア(独自算出の注目度): 49.1574468325115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Planet-scale image geolocalization remains a challenging problem due to the
diversity of images originating from anywhere in the world. Although approaches
based on vision transformers have made significant progress in geolocalization
accuracy, success in prior literature is constrained to narrow distributions of
images of landmarks, and performance has not generalized to unseen places. We
present a new geolocalization system that combines semantic geocell creation,
multi-task contrastive pretraining, and a novel loss function. Additionally,
our work is the first to perform retrieval over location clusters for guess
refinements. We train two models for evaluations on street-level data and
general-purpose image geolocalization; the first model, PIGEON, is trained on
data from the game of Geoguessr and is capable of placing over 40% of its
guesses within 25 kilometers of the target location globally. We also develop a
bot and deploy PIGEON in a blind experiment against humans, ranking in the top
0.01% of players. We further challenge one of the world's foremost professional
Geoguessr players to a series of six matches with millions of viewers, winning
all six games. Our second model, PIGEOTTO, differs in that it is trained on a
dataset of images from Flickr and Wikipedia, achieving state-of-the-art results
on a wide range of image geolocalization benchmarks, outperforming the previous
SOTA by up to 7.7 percentage points on the city accuracy level and up to 38.8
percentage points on the country level. Our findings suggest that PIGEOTTO is
the first image geolocalization model that effectively generalizes to unseen
places and that our approach can pave the way for highly accurate, planet-scale
image geolocalization systems. Our code is available on GitHub.
- Abstract(参考訳): 惑星規模の画像のジオローカライゼーションは、世界中のどこから来た画像の多様性のため、依然として困難な問題である。
視覚変換器をベースとした手法は地理的局所化の精度を大幅に向上させたが、先行文学の成功はランドマークの画像の狭い分布に制約され、性能は目に見えない場所に一般化されていない。
本稿では, セマンティックジオセル生成, マルチタスクコントラスト事前学習, 新たな損失関数を組み合わせた新しいジオローカライズシステムを提案する。
さらに,推定精度向上のため,位置情報クラスタ上での検索を初めて実施した。
まず,Geoguessrのゲームから得られたデータに基づいてトレーニングを行い,目標地点から25km以内に推定値の40%以上を世界規模で配置することができる。
また、ロボットを開発し、人間に対する盲点実験でPIGEONをデプロイし、プレイヤーの上位0.01%にランク付けした。
我々はまた、世界有数のプロであるGeoguessrプレーヤーの1人に対して、数百万人の視聴者と6試合に挑戦し、6試合全てで勝利した。
第2のモデルである pigeotto は,flickr と wikipedia の画像データセット上でトレーニングを行い,広範な画像ジオロカライズベンチマークで最新結果を達成し,都市の正確度レベルでは最大 7.7 ポイント,国レベルでは 38.8 ポイントの sota を上回っている点が異なる。
この結果から,PIGEOTTOは未知の場所に効果的に一般化する最初の画像ジオローカライゼーションモデルであり,高精度で惑星規模の画像ジオローカライゼーションシステムを実現するための道を開くことができることが示唆された。
コードはgithubから入手できます。
関連論文リスト
- CityGuessr: City-Level Video Geo-Localization on a Global Scale [54.371452373726584]
本稿では, 都市, 州, 国, 大陸を階層的に予測することを目的とした, グローバルな地平化の新たな課題を提案する。
この問題を解決するためのモデルをトレーニングするために、世界中をカバーした大規模なビデオデータセットは存在しない。
我々は、世界中の166都市から68,269の動画からなる新しいデータセット、CityGuessr68kを紹介した。
論文 参考訳(メタデータ) (2024-11-10T03:20:00Z) - G3: An Effective and Adaptive Framework for Worldwide Geolocalization Using Large Multi-Modality Models [40.69217368870192]
我々は、レトリーバル拡張世代(RAG)に基づく世界規模の地理的ローカライゼーションのための新しい枠組みを提案する。
G3は、ジオアライメント、ジオディバーシフィケーション、ジオビジュアライゼーションの3つのステップから構成される。
2つの確立されたデータセットの実験は、他の最先端手法と比較してG3の優位性を検証する。
論文 参考訳(メタデータ) (2024-05-23T15:37:06Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - Where We Are and What We're Looking At: Query Based Worldwide Image
Geo-localization Using Hierarchies and Scenes [53.53712888703834]
地理的レベルの異なる関係を利用して、エンドツーエンドのトランスフォーマーベースのアーキテクチャを導入する。
4つの標準ジオローカライゼーションデータセット上で,アートストリートレベルの精度を実現する。
論文 参考訳(メタデータ) (2023-03-07T21:47:58Z) - G^3: Geolocation via Guidebook Grounding [92.46774241823562]
本研究では,人間が位置情報に用いている視覚的特徴を記述した人書きガイドブックから,明示的な知識について検討する。
多様な場所からのストリートビュー画像のデータセットを用いたガイドブックグラウンディングによるジオロケーションのタスクを提案する。
提案手法は,Top-1の精度が5%以上向上し,最先端の画像のみの位置決め法よりも大幅に向上する。
論文 参考訳(メタデータ) (2022-11-28T16:34:40Z) - Where in the World is this Image? Transformer-based Geo-localization in
the Wild [48.69031054573838]
世界各地で撮影された地上レベルのRGB画像から地理的位置(ジオローカライゼーション)を予測することは、非常に難しい問題です。
画像全体の細部を網羅する統合型デュアルブランチトランスネットワークであるTransLocatorを提案する。
我々は、Im2GPS、Im2GPS3k、YFCC4k、YFCC26kの4つのベンチマークデータセットでTransLocatorを評価し、5.5%、14.1%、4.9%、9.9%の大陸レベルの精度改善を得た。
論文 参考訳(メタデータ) (2022-04-29T03:27:23Z) - Rethinking Visual Geo-localization for Large-Scale Applications [18.09618985653891]
サンフランシスコのeXtra Largeは、都市全体をカバーする新しいデータセットで、さまざまな困難なケースを提供します。
我々はCosPlaceと呼ばれる新しい高度にスケーラブルなトレーニングテクニックを設計し、そのトレーニングを分類問題として位置づける。
幅広いデータセットで最先端のパフォーマンスを実現し、CosPlaceがドメイン変更に対して堅牢であることに気付きました。
論文 参考訳(メタデータ) (2022-04-05T15:33:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。