Fugu-MT 論文翻訳(概要): PIGEON: Predicting Image Geolocations

論文の概要: PIGEON: Predicting Image Geolocations

arxiv url: http://arxiv.org/abs/2307.05845v2
Date: Thu, 13 Jul 2023 13:22:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-14 10:12:25.633738
Title: PIGEON: Predicting Image Geolocations
Title（参考訳）: PIGEON:画像位置情報の予測
Authors: Lukas Haas, Michal Skreta, Silas Alberti
Abstract要約: 本稿では,惑星規模の画像位置決めのためのエンドツーエンドシステムであるPIGEONを紹介する。本研究では, ジオセル内改良の有効性と, 教師なしクラスタリングとProtNetsの適用性を示す。トレーニング済みのCLIP変換モデルであるStreetCLIPを、隣接するドメインで使用するために公開しています。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce PIGEON, a multi-task end-to-end system for planet-scale image geolocalization that achieves state-of-the-art performance on both external benchmarks and in human evaluation. Our work incorporates semantic geocell creation with label smoothing, conducts pretraining of a vision transformer on images with geographic information, and refines location predictions with ProtoNets across a candidate set of geocells. The contributions of PIGEON are three-fold: first, we design a semantic geocells creation and splitting algorithm based on open-source data which can be adapted to any geospatial dataset. Second, we show the effectiveness of intra-geocell refinement and the applicability of unsupervised clustering and ProtNets to the task. Finally, we make our pre-trained CLIP transformer model, StreetCLIP, publicly available for use in adjacent domains with applications to fighting climate change and urban and rural scene understanding.
Abstract（参考訳）: 本稿では,外部ベンチマークと人的評価の両面において,最先端の性能を実現するマルチタスク・エンド・ツー・エンド・システムであるPIGEONを紹介する。本研究は,ラベルの平滑化によるセマンティックジオセル生成を取り入れ,地理情報を用いた画像上でのビジョントランスフォーマーの事前学習を行い,ジオセルの候補集合をまたいだProtoNetによる位置予測を洗練する。まず、任意の地理空間データセットに適合可能なオープンソースのデータに基づいて、セマンティックなジオセルの作成と分割アルゴリズムを設計する。第2に,非教師なしクラスタリングとProtNetのタスクへの適用性について検討した。最後に,我々の事前学習型CLIPトランスフォーマーモデルであるStreetCLIPを,気候変動対策や都市・農村の景観理解への応用として,近隣のドメインで一般に利用可能にしている。

関連論文リスト

GeoRanker: Distance-Aware Ranking for Worldwide Image Geolocalization [30.983556433953076]
画像ジオローカライズのための距離対応ランキングフレームワークGeoRankerを提案する。絶対距離と相対距離の両方をランク付けする多階距離損失を導入し、構造的空間関係をモデル化する。 GeoRankerは、2つの確立されたベンチマークで最先端の結果を達成する。
論文参考訳（メタデータ） (2025-05-19T21:04:46Z)
Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文参考訳（メタデータ） (2025-02-19T14:21:25Z)
CityGuessr: City-Level Video Geo-Localization on a Global Scale [54.371452373726584]
本稿では, 都市, 州, 国, 大陸を階層的に予測することを目的とした, グローバルな地平化の新たな課題を提案する。この問題を解決するためのモデルをトレーニングするために、世界中をカバーした大規模なビデオデータセットは存在しない。我々は、世界中の166都市から68,269の動画からなる新しいデータセット、CityGuessr68kを紹介した。
論文参考訳（メタデータ） (2024-11-10T03:20:00Z)
G3: An Effective and Adaptive Framework for Worldwide Geolocalization Using Large Multi-Modality Models [40.69217368870192]
我々は、レトリーバル拡張世代(RAG)に基づく世界規模の地理的ローカライゼーションのための新しい枠組みを提案する。 G3は、ジオアライメント、ジオディバーシフィケーション、ジオビジュアライゼーションの3つのステップから構成される。 2つの確立されたデータセットの実験は、他の最先端手法と比較してG3の優位性を検証する。
論文参考訳（メタデータ） (2024-05-23T15:37:06Z)
GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文参考訳（メタデータ） (2023-09-27T20:54:56Z)
Where We Are and What We're Looking At: Query Based Worldwide Image Geo-localization Using Hierarchies and Scenes [53.53712888703834]
地理的レベルの異なる関係を利用して、エンドツーエンドのトランスフォーマーベースのアーキテクチャを導入する。 4つの標準ジオローカライゼーションデータセット上で,アートストリートレベルの精度を実現する。
論文参考訳（メタデータ） (2023-03-07T21:47:58Z)
G^3: Geolocation via Guidebook Grounding [92.46774241823562]
本研究では,人間が位置情報に用いている視覚的特徴を記述した人書きガイドブックから,明示的な知識について検討する。多様な場所からのストリートビュー画像のデータセットを用いたガイドブックグラウンディングによるジオロケーションのタスクを提案する。提案手法は,Top-1の精度が5%以上向上し,最先端の画像のみの位置決め法よりも大幅に向上する。
論文参考訳（メタデータ） (2022-11-28T16:34:40Z)
Where in the World is this Image? Transformer-based Geo-localization in the Wild [48.69031054573838]
世界各地で撮影された地上レベルのRGB画像から地理的位置(ジオローカライゼーション)を予測することは、非常に難しい問題です。画像全体の細部を網羅する統合型デュアルブランチトランスネットワークであるTransLocatorを提案する。我々は、Im2GPS、Im2GPS3k、YFCC4k、YFCC26kの4つのベンチマークデータセットでTransLocatorを評価し、5.5%、14.1%、4.9%、9.9%の大陸レベルの精度改善を得た。
論文参考訳（メタデータ） (2022-04-29T03:27:23Z)
Rethinking Visual Geo-localization for Large-Scale Applications [18.09618985653891]
サンフランシスコのeXtra Largeは、都市全体をカバーする新しいデータセットで、さまざまな困難なケースを提供します。我々はCosPlaceと呼ばれる新しい高度にスケーラブルなトレーニングテクニックを設計し、そのトレーニングを分類問題として位置づける。幅広いデータセットで最先端のパフォーマンスを実現し、CosPlaceがドメイン変更に対して堅牢であることに気付きました。
論文参考訳（メタデータ） (2022-04-05T15:33:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。