論文の概要: G^3: Geolocation via Guidebook Grounding
- arxiv url: http://arxiv.org/abs/2211.15521v1
- Date: Mon, 28 Nov 2022 16:34:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 15:22:02.942539
- Title: G^3: Geolocation via Guidebook Grounding
- Title(参考訳): G^3: Guidebook Grounding によるジオロケーション
- Authors: Grace Luo, Giscard Biamby, Trevor Darrell, Daniel Fried, Anna Rohrbach
- Abstract要約: 本研究では,人間が位置情報に用いている視覚的特徴を記述した人書きガイドブックから,明示的な知識について検討する。
多様な場所からのストリートビュー画像のデータセットを用いたガイドブックグラウンディングによるジオロケーションのタスクを提案する。
提案手法は,Top-1の精度が5%以上向上し,最先端の画像のみの位置決め法よりも大幅に向上する。
- 参考スコア(独自算出の注目度): 92.46774241823562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We demonstrate how language can improve geolocation: the task of predicting
the location where an image was taken. Here we study explicit knowledge from
human-written guidebooks that describe the salient and class-discriminative
visual features humans use for geolocation. We propose the task of Geolocation
via Guidebook Grounding that uses a dataset of StreetView images from a diverse
set of locations and an associated textual guidebook for GeoGuessr, a popular
interactive geolocation game. Our approach predicts a country for each image by
attending over the clues automatically extracted from the guidebook.
Supervising attention with country-level pseudo labels achieves the best
performance. Our approach substantially outperforms a state-of-the-art
image-only geolocation method, with an improvement of over 5% in Top-1
accuracy. Our dataset and code can be found at
https://github.com/g-luo/geolocation_via_guidebook_grounding.
- Abstract(参考訳): 画像が撮影された場所を予測するタスクである位置情報を,言語がいかに改善できるかを示す。
そこで本研究では,人間が位置情報に用いている視覚的特徴を,人間の手書きガイドブックから明らかに把握する。
多様な場所のストリートビュー画像のデータセットと、人気のあるインタラクティブなジオロケーションゲームであるGeoGuessrのテキストガイドブックを用いた、ガイドブックグラウンドによるジオロケーションのタスクを提案する。
本手法は,ガイドブックから自動的に抽出された手がかりに注目することで,各画像の国を予測する。
国レベルの擬似ラベルによる注目が最高のパフォーマンスを達成する。
本手法は,最先端画像のみの位置情報法を実質的に上回り,top-1精度が5%以上向上した。
データセットとコードはhttps://github.com/g-luo/geolocation_via_guidebook_grounding.orgにある。
関連論文リスト
- G3: An Effective and Adaptive Framework for Worldwide Geolocalization Using Large Multi-Modality Models [40.69217368870192]
我々は、レトリーバル拡張世代(RAG)に基づく世界規模の地理的ローカライゼーションのための新しい枠組みを提案する。
G3は、ジオアライメント、ジオディバーシフィケーション、ジオビジュアライゼーションの3つのステップから構成される。
2つの確立されたデータセットの実験は、他の最先端手法と比較してG3の優位性を検証する。
論文 参考訳(メタデータ) (2024-05-23T15:37:06Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - Geo-Encoder: A Chunk-Argument Bi-Encoder Framework for Chinese
Geographic Re-Ranking [61.60169764507917]
中国の地理的再ランクタスクは、検索された候補者の中で最も関連性の高い住所を見つけることを目的としている。
そこで我々は,中国語の地理的意味論をより効果的に統合する,革新的なフレームワークであるGeo-Encoderを提案する。
論文 参考訳(メタデータ) (2023-09-04T13:44:50Z) - PIGEON: Predicting Image Geolocations [44.99833362998488]
本稿では, セマンティックジオセル生成, マルチタスクコントラスト事前学習, 新たな損失関数を組み合わせた新しいジオローカライズシステムを提案する。
PIGEOTTOは、目に見えない場所に効果的に一般化する最初の画像ジオローカライズモデルである。
論文 参考訳(メタデータ) (2023-07-11T23:36:49Z) - GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。
オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。
我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (2023-05-11T03:21:56Z) - Where We Are and What We're Looking At: Query Based Worldwide Image
Geo-localization Using Hierarchies and Scenes [53.53712888703834]
地理的レベルの異なる関係を利用して、エンドツーエンドのトランスフォーマーベースのアーキテクチャを導入する。
4つの標準ジオローカライゼーションデータセット上で,アートストリートレベルの精度を実現する。
論文 参考訳(メタデータ) (2023-03-07T21:47:58Z) - Leveraging Selective Prediction for Reliable Image Geolocation [6.453278464902654]
画像のローカライズ可能性、すなわち画像の位置情報への適合性を定義する。
本稿では,タスクに対処する選択的な予測手法を提案する。
非ローカライズ可能な画像の予測を控えることで、都市規模での位置情報の精度を27.8%から70.5%に改善する。
論文 参考訳(メタデータ) (2021-11-23T15:46:12Z) - Hierarchical Attention Fusion for Geo-Localization [7.544917072241684]
地理的ローカライゼーションのためのマルチスケール特徴を用いた階層型アテンション融合ネットワークを提案する。
畳み込みニューラルネットワーク(cnn)から階層的特徴マップを抽出し,抽出した特徴を画像表現に有機的に融合する。
学習は適応重みを用いて自己監督され,各階層レベルから特徴強調の注意を制御できる。
論文 参考訳(メタデータ) (2021-02-18T07:07:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。