論文の概要: GAMa: Cross-view Video Geo-localization
- arxiv url: http://arxiv.org/abs/2207.02431v1
- Date: Wed, 6 Jul 2022 04:25:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 01:12:51.783912
- Title: GAMa: Cross-view Video Geo-localization
- Title(参考訳): gama: クロスビュービデオのジオローカライズ
- Authors: Shruti Vyas, Chen Chen, and Mubarak Shah
- Abstract要約: 我々は、文脈的手がかりを提供する画像ではなく、地上ビデオに焦点を当てている。
クリップレベルでは、短いビデオクリップと対応する空中画像が一致し、後に長いビデオの動画レベルのジオローカライズを得るために使用される。
提案手法は,トップ1リコール率19.4%,45.1%@1.0マイルを達成する。
- 参考スコア(独自算出の注目度): 68.33955764543465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The existing work in cross-view geo-localization is based on images where a
ground panorama is matched to an aerial image. In this work, we focus on ground
videos instead of images which provides additional contextual cues which are
important for this task. There are no existing datasets for this problem,
therefore we propose GAMa dataset, a large-scale dataset with ground videos and
corresponding aerial images. We also propose a novel approach to solve this
problem. At clip-level, a short video clip is matched with corresponding aerial
image and is later used to get video-level geo-localization of a long video.
Moreover, we propose a hierarchical approach to further improve the clip-level
geolocalization. It is a challenging dataset, unaligned and limited field of
view, and our proposed method achieves a Top-1 recall rate of 19.4% and 45.1%
@1.0mile. Code and dataset are available at following link:
https://github.com/svyas23/GAMa.
- Abstract(参考訳): 地上のパノラマが空中画像と一致している画像に基づいて、クロスビューのジオローカライズに関する既存の研究を行っている。
本研究では,この課題に重要な文脈的手がかりを付加する画像ではなく,地上映像に焦点をあてる。
既存のデータセットは存在しないため,地上映像とそれに対応する空中画像を備えた大規模データセットであるGAMaデータセットを提案する。
また,この問題に対する新しいアプローチを提案する。
クリップレベルでは、短いビデオクリップと対応する空中画像が一致し、後に長いビデオの動画レベルのジオローカライズを得るために使用される。
さらに,クリップレベルのジオローカライゼーションをさらに改善するための階層的アプローチを提案する。
これは挑戦的なデータセットであり、不整合で限られた視野であり、提案手法はTop-1リコール率19.4%と45.1%@1.0mileを達成する。
コードとデータセットは以下のリンクで利用可能である。
関連論文リスト
- CityGuessr: City-Level Video Geo-Localization on a Global Scale [54.371452373726584]
本稿では, 都市, 州, 国, 大陸を階層的に予測することを目的とした, グローバルな地平化の新たな課題を提案する。
この問題を解決するためのモデルをトレーニングするために、世界中をカバーした大規模なビデオデータセットは存在しない。
我々は、世界中の166都市から68,269の動画からなる新しいデータセット、CityGuessr68kを紹介した。
論文 参考訳(メタデータ) (2024-11-10T03:20:00Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - Where We Are and What We're Looking At: Query Based Worldwide Image
Geo-localization Using Hierarchies and Scenes [53.53712888703834]
地理的レベルの異なる関係を利用して、エンドツーエンドのトランスフォーマーベースのアーキテクチャを導入する。
4つの標準ジオローカライゼーションデータセット上で,アートストリートレベルの精度を実現する。
論文 参考訳(メタデータ) (2023-03-07T21:47:58Z) - Cross-View Image Sequence Geo-localization [6.555961698070275]
クロスビュージオローカライゼーションは,クエリ基底画像のGPS位置を推定することを目的としている。
最近のアプローチでは、パノラマ画像を用いて視界範囲を拡大している。
本研究では、フィールド-オフ-ビューの限られた画像のシーケンスで動作する、最初のクロスビューなジオローカライズ手法を提案する。
論文 参考訳(メタデータ) (2022-10-25T19:46:18Z) - CVLNet: Cross-View Semantic Correspondence Learning for Video-based
Camera Localization [89.69214577915959]
本稿では,クロスビューカメラのローカライゼーション問題に対処する。
本稿では、類似性マッチングの前に、問合せカメラの衛星画像に対する相対変位を推定する。
実験は、単一の画像に基づく位置決めよりもビデオベースの位置決めの有効性を実証した。
論文 参考訳(メタデータ) (2022-08-07T07:35:17Z) - TransGeo: Transformer Is All You Need for Cross-view Image
Geo-localization [81.70547404891099]
クロスビュー画像のジオローカライゼーションのためのCNNに基づく手法は,大域的相関をモデル化できない。
本稿では,これらの制約に対処するためのトランスジェオ (TransGeo) を提案する。
TransGeoは、都市と農村の両方のデータセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-03-31T21:19:41Z) - Danish Airs and Grounds: A Dataset for Aerial-to-Street-Level Place
Recognition and Localization [9.834635805575584]
我々は,この事例を対象とする道路や航空画像の大規模な収集であるemphDanish Airs and Groundsデータセットにコントリビュートする。
データセットは、都市部、郊外部、農村部で50km以上の道路を含む、現在利用可能なデータよりも大きく、多様である。
そこで本研究では,まず空中画像から高密度な3次元再構成を推定し,検索したストリートレベルの画像と3次元モデルのストリートレベルのレンダリングをマッチングするマップ・ツー・イメージ再配置パイプラインを提案する。
論文 参考訳(メタデータ) (2022-02-03T19:58:09Z) - VIGOR: Cross-View Image Geo-localization beyond One-to-one Retrieval [19.239311087570318]
クロスビュー画像のジオローカライゼーションは,空中からのGPSタグ付き参照画像とマッチングすることで,ストリートビュー検索画像の位置を決定することを目的としている。
最近の研究は、都市規模データセットの驚くほど高い検索精度を実現している。
我々は,1対1の検索範囲を超えて,画像の地理的局所化を行うための大規模ベンチマークであるVIGORを提案する。
論文 参考訳(メタデータ) (2020-11-24T15:50:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。