論文の概要: CityGuessr: City-Level Video Geo-Localization on a Global Scale
- arxiv url: http://arxiv.org/abs/2411.06344v1
- Date: Sun, 10 Nov 2024 03:20:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:09:24.346883
- Title: CityGuessr: City-Level Video Geo-Localization on a Global Scale
- Title(参考訳): CityGuessr:グローバルスケールでの都市レベルのビデオジオローカライゼーション
- Authors: Parth Parag Kulkarni, Gaurav Kumar Nayak, Mubarak Shah,
- Abstract要約: 本稿では, 都市, 州, 国, 大陸を階層的に予測することを目的とした, グローバルな地平化の新たな課題を提案する。
この問題を解決するためのモデルをトレーニングするために、世界中をカバーした大規模なビデオデータセットは存在しない。
我々は、世界中の166都市から68,269の動画からなる新しいデータセット、CityGuessr68kを紹介した。
- 参考スコア(独自算出の注目度): 54.371452373726584
- License:
- Abstract: Video geolocalization is a crucial problem in current times. Given just a video, ascertaining where it was captured from can have a plethora of advantages. The problem of worldwide geolocalization has been tackled before, but only using the image modality. Its video counterpart remains relatively unexplored. Meanwhile, video geolocalization has also garnered some attention in the recent past, but the existing methods are all restricted to specific regions. This motivates us to explore the problem of video geolocalization at a global scale. Hence, we propose a novel problem of worldwide video geolocalization with the objective of hierarchically predicting the correct city, state/province, country, and continent, given a video. However, no large scale video datasets that have extensive worldwide coverage exist, to train models for solving this problem. To this end, we introduce a new dataset, CityGuessr68k comprising of 68,269 videos from 166 cities all over the world. We also propose a novel baseline approach to this problem, by designing a transformer-based architecture comprising of an elegant Self-Cross Attention module for incorporating scenes as well as a TextLabel Alignment strategy for distilling knowledge from textlabels in feature space. To further enhance our location prediction, we also utilize soft-scene labels. Finally we demonstrate the performance of our method on our new dataset as well as Mapillary(MSLS). Our code and datasets are available at: https://github.com/ParthPK/CityGuessr
- Abstract(参考訳): ビデオのジオローカライゼーションは、現在において重要な問題である。
ビデオだけを見れば、どこで撮影されたかがわかると、多くの利点がある。
グローバルなジオローカライゼーションの問題は、これまで解決されてきたが、画像のモダリティのみを用いている。
ビデオは未公開のままである。
一方、ビデオの位置情報化も近年注目されているが、既存の手法はすべて特定の地域に限定されている。
このことは,地球規模でのビデオ位置情報化の課題を探求する動機となっている。
そこで本稿では, 都市, 州, 国, 大陸を階層的に予測することを目的とした, グローバルな地域化の新たな課題を提案する。
しかし、この問題を解決するためのモデルをトレーニングするために、世界中をカバーしている大規模なビデオデータセットは存在しない。
この目的のために、世界中の166都市から68,269本のビデオからなる新しいデータセット、CityGuessr68kを紹介した。
また、シーンを組み込むエレガントなセルフクロスアテンションモジュールと、特徴空間内のテキストラベルから知識を抽出するテキストラベルアライメント戦略を組み合わせたトランスフォーマーベースのアーキテクチャを設計することで、この問題に対する新たなベースラインアプローチを提案する。
位置予測をさらに強化するため,ソフトシーンラベルも活用する。
最後に、Mapillary(MSLS)と同様に、新しいデータセット上でのメソッドの性能を示す。
私たちのコードとデータセットは、https://github.com/ParthPK/CityGuessr.comで公開されています。
関連論文リスト
- GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - PIGEON: Predicting Image Geolocations [44.99833362998488]
本稿では, セマンティックジオセル生成, マルチタスクコントラスト事前学習, 新たな損失関数を組み合わせた新しいジオローカライズシステムを提案する。
PIGEOTTOは、目に見えない場所に効果的に一般化する最初の画像ジオローカライズモデルである。
論文 参考訳(メタデータ) (2023-07-11T23:36:49Z) - Improving Toponym Resolution with Better Candidate Generation,
Transformer-based Reranking, and Two-Stage Resolution [30.855736793066406]
ジオコーディング(Geocoding)は、テキスト中の位置参照を地理空間意味論を符号化する構造化データに変換するタスクである。
我々はジオコーディングのための新しいアーキテクチャGeoNormを提案する。
提案手法は,複数データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-05-18T21:52:48Z) - Where We Are and What We're Looking At: Query Based Worldwide Image
Geo-localization Using Hierarchies and Scenes [53.53712888703834]
地理的レベルの異なる関係を利用して、エンドツーエンドのトランスフォーマーベースのアーキテクチャを導入する。
4つの標準ジオローカライゼーションデータセット上で,アートストリートレベルの精度を実現する。
論文 参考訳(メタデータ) (2023-03-07T21:47:58Z) - G^3: Geolocation via Guidebook Grounding [92.46774241823562]
本研究では,人間が位置情報に用いている視覚的特徴を記述した人書きガイドブックから,明示的な知識について検討する。
多様な場所からのストリートビュー画像のデータセットを用いたガイドブックグラウンディングによるジオロケーションのタスクを提案する。
提案手法は,Top-1の精度が5%以上向上し,最先端の画像のみの位置決め法よりも大幅に向上する。
論文 参考訳(メタデータ) (2022-11-28T16:34:40Z) - GAMa: Cross-view Video Geo-localization [68.33955764543465]
我々は、文脈的手がかりを提供する画像ではなく、地上ビデオに焦点を当てている。
クリップレベルでは、短いビデオクリップと対応する空中画像が一致し、後に長いビデオの動画レベルのジオローカライズを得るために使用される。
提案手法は,トップ1リコール率19.4%,45.1%@1.0マイルを達成する。
論文 参考訳(メタデータ) (2022-07-06T04:25:51Z) - Rethinking Visual Geo-localization for Large-Scale Applications [18.09618985653891]
サンフランシスコのeXtra Largeは、都市全体をカバーする新しいデータセットで、さまざまな困難なケースを提供します。
我々はCosPlaceと呼ばれる新しい高度にスケーラブルなトレーニングテクニックを設計し、そのトレーニングを分類問題として位置づける。
幅広いデータセットで最先端のパフォーマンスを実現し、CosPlaceがドメイン変更に対して堅牢であることに気付きました。
論文 参考訳(メタデータ) (2022-04-05T15:33:45Z) - TransGeo: Transformer Is All You Need for Cross-view Image
Geo-localization [81.70547404891099]
クロスビュー画像のジオローカライゼーションのためのCNNに基づく手法は,大域的相関をモデル化できない。
本稿では,これらの制約に対処するためのトランスジェオ (TransGeo) を提案する。
TransGeoは、都市と農村の両方のデータセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-03-31T21:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。