Fugu-MT 論文翻訳(概要): GAMa: Cross-view Video Geo-localization

論文の概要: GAMa: Cross-view Video Geo-localization

arxiv url: http://arxiv.org/abs/2207.02431v1
Date: Wed, 6 Jul 2022 04:25:51 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-08 01:12:51.783912
Title: GAMa: Cross-view Video Geo-localization
Title（参考訳）: gama: クロスビュービデオのジオローカライズ
Authors: Shruti Vyas, Chen Chen, and Mubarak Shah
Abstract要約: 我々は、文脈的手がかりを提供する画像ではなく、地上ビデオに焦点を当てている。クリップレベルでは、短いビデオクリップと対応する空中画像が一致し、後に長いビデオの動画レベルのジオローカライズを得るために使用される。提案手法は,トップ1リコール率19.4%,45.1%@1.0マイルを達成する。
参考スコア（独自算出の注目度）: 68.33955764543465
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The existing work in cross-view geo-localization is based on images where a ground panorama is matched to an aerial image. In this work, we focus on ground videos instead of images which provides additional contextual cues which are important for this task. There are no existing datasets for this problem, therefore we propose GAMa dataset, a large-scale dataset with ground videos and corresponding aerial images. We also propose a novel approach to solve this problem. At clip-level, a short video clip is matched with corresponding aerial image and is later used to get video-level geo-localization of a long video. Moreover, we propose a hierarchical approach to further improve the clip-level geolocalization. It is a challenging dataset, unaligned and limited field of view, and our proposed method achieves a Top-1 recall rate of 19.4% and 45.1% @1.0mile. Code and dataset are available at following link: https://github.com/svyas23/GAMa.
Abstract（参考訳）: 地上のパノラマが空中画像と一致している画像に基づいて、クロスビューのジオローカライズに関する既存の研究を行っている。本研究では,この課題に重要な文脈的手がかりを付加する画像ではなく,地上映像に焦点をあてる。既存のデータセットは存在しないため,地上映像とそれに対応する空中画像を備えた大規模データセットであるGAMaデータセットを提案する。また,この問題に対する新しいアプローチを提案する。クリップレベルでは、短いビデオクリップと対応する空中画像が一致し、後に長いビデオの動画レベルのジオローカライズを得るために使用される。さらに,クリップレベルのジオローカライゼーションをさらに改善するための階層的アプローチを提案する。これは挑戦的なデータセットであり、不整合で限られた視野であり、提案手法はTop-1リコール率19.4%と45.1%@1.0mileを達成する。コードとデータセットは以下のリンクで利用可能である。

関連論文リスト

Scaling Image Geo-Localization to Continent Level [48.7766435870634]
本稿では,大陸規模を拡大する大規模地形をまたいだ微粒な地理的局在化を実現するためのハイブリッドアプローチを提案する。我々は、訓練中にプロキシ分類タスクを利用して、正確な位置情報を暗黙的にエンコードするリッチな特徴表現を学習する。我々の評価は,ヨーロッパの大部分をカバーするデータセットのクエリの68%以上を200m以内でローカライズできることを示す。
論文参考訳（メタデータ） (2025-10-30T17:59:35Z)
CLIP the Landscape: Automated Tagging of Crowdsourced Landscape Images [0.5999777817331317]
ランドスケープ写真から地理的コンテキストタグを予測するためのCLIPベースのマルチモーダルマルチラベル分類器を提案する。位置埋め込みとタイトル埋め込みを画像特徴と組み合わせることで,画像埋め込みを単独で使用するよりも精度が向上することを示す。
論文参考訳（メタデータ） (2025-06-13T20:32:58Z)
GeoVLM: Improving Automated Vehicle Geolocalisation Using Vision-Language Matching [6.8045687415659275]
クロスビュージオローカライゼーションは、地上レベルの画像とジオタグ付き衛星画像とをデータベースからマッチングすることにより、車両の粗い地理的位置を特定する。既存のアプローチは高いリコールレートに達するが、それでもトップマッチとして正しいイメージのランク付けに失敗している。本稿では、視覚言語モデルのゼロショット機能を利用して、クロスビューなジオローカライゼーションを実現する新しいアプローチであるGeoVLMを提案する。
論文参考訳（メタデータ） (2025-05-19T19:17:06Z)
Large-scale Pre-training for Grounded Video Caption Generation [67.74116645708892]
本稿では,映像中のキャプションとオブジェクトの接地に関する新しいアプローチを提案する。本稿では,境界ボックスで接地されたフレームレベルのキャプションを時間的に密集した一貫したアノテーションに集約する大規模自動アノテーションを提案する。提案したiGroundデータセットに加えて,VidSTG, ActivityNet-Entities, GroundingYouTube, YouCook-Interactionsデータセット上で,最新の結果が得られることを示す。
論文参考訳（メタデータ） (2025-03-13T18:21:07Z)
Cross-View Image Set Geo-Localization [29.13525096798705]
クロスビュージオローカライゼーション(CVGL)はロボットナビゲーションや拡張現実といった分野に広く応用されている。そこで我々は, 多様な視点で複数の画像を収集し, ローカライズのためのクエリセットとして, クロスビュー画像セットジオローカライズ(Set-CVGL)を提案する。
論文参考訳（メタデータ） (2024-12-25T09:46:14Z)
CityGuessr: City-Level Video Geo-Localization on a Global Scale [54.371452373726584]
本稿では, 都市, 州, 国, 大陸を階層的に予測することを目的とした, グローバルな地平化の新たな課題を提案する。この問題を解決するためのモデルをトレーニングするために、世界中をカバーした大規模なビデオデータセットは存在しない。我々は、世界中の166都市から68,269の動画からなる新しいデータセット、CityGuessr68kを紹介した。
論文参考訳（メタデータ） (2024-11-10T03:20:00Z)
GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文参考訳（メタデータ） (2023-09-27T20:54:56Z)
Where We Are and What We're Looking At: Query Based Worldwide Image Geo-localization Using Hierarchies and Scenes [53.53712888703834]
地理的レベルの異なる関係を利用して、エンドツーエンドのトランスフォーマーベースのアーキテクチャを導入する。 4つの標準ジオローカライゼーションデータセット上で,アートストリートレベルの精度を実現する。
論文参考訳（メタデータ） (2023-03-07T21:47:58Z)
Cross-View Image Sequence Geo-localization [6.555961698070275]
クロスビュージオローカライゼーションは,クエリ基底画像のGPS位置を推定することを目的としている。最近のアプローチでは、パノラマ画像を用いて視界範囲を拡大している。本研究では、フィールド-オフ-ビューの限られた画像のシーケンスで動作する、最初のクロスビューなジオローカライズ手法を提案する。
論文参考訳（メタデータ） (2022-10-25T19:46:18Z)
CVLNet: Cross-View Semantic Correspondence Learning for Video-based Camera Localization [89.69214577915959]
本稿では,クロスビューカメラのローカライゼーション問題に対処する。本稿では、類似性マッチングの前に、問合せカメラの衛星画像に対する相対変位を推定する。実験は、単一の画像に基づく位置決めよりもビデオベースの位置決めの有効性を実証した。
論文参考訳（メタデータ） (2022-08-07T07:35:17Z)
TransGeo: Transformer Is All You Need for Cross-view Image Geo-localization [81.70547404891099]
クロスビュー画像のジオローカライゼーションのためのCNNに基づく手法は,大域的相関をモデル化できない。本稿では,これらの制約に対処するためのトランスジェオ (TransGeo) を提案する。 TransGeoは、都市と農村の両方のデータセットで最先端の結果を達成する。
論文参考訳（メタデータ） (2022-03-31T21:19:41Z)
Danish Airs and Grounds: A Dataset for Aerial-to-Street-Level Place Recognition and Localization [9.834635805575584]
我々は,この事例を対象とする道路や航空画像の大規模な収集であるemphDanish Airs and Groundsデータセットにコントリビュートする。データセットは、都市部、郊外部、農村部で50km以上の道路を含む、現在利用可能なデータよりも大きく、多様である。そこで本研究では,まず空中画像から高密度な3次元再構成を推定し,検索したストリートレベルの画像と3次元モデルのストリートレベルのレンダリングをマッチングするマップ・ツー・イメージ再配置パイプラインを提案する。
論文参考訳（メタデータ） (2022-02-03T19:58:09Z)
VIGOR: Cross-View Image Geo-localization beyond One-to-one Retrieval [19.239311087570318]
クロスビュー画像のジオローカライゼーションは,空中からのGPSタグ付き参照画像とマッチングすることで,ストリートビュー検索画像の位置を決定することを目的としている。最近の研究は、都市規模データセットの驚くほど高い検索精度を実現している。我々は,1対1の検索範囲を超えて,画像の地理的局所化を行うための大規模ベンチマークであるVIGORを提案する。
論文参考訳（メタデータ） (2020-11-24T15:50:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。