論文の概要: Where in the World is this Image? Transformer-based Geo-localization in
the Wild
- arxiv url: http://arxiv.org/abs/2204.13861v1
- Date: Fri, 29 Apr 2022 03:27:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 03:14:18.738959
- Title: Where in the World is this Image? Transformer-based Geo-localization in
the Wild
- Title(参考訳): この写真はどこにあるの?
トランスフォーマーを用いた野生生物の地球局在化
- Authors: Shraman Pramanick, Ewa M. Nowara, Joshua Gleason, Carlos D. Castillo
and Rama Chellappa
- Abstract要約: 世界各地で撮影された地上レベルのRGB画像から地理的位置(ジオローカライゼーション)を予測することは、非常に難しい問題です。
画像全体の細部を網羅する統合型デュアルブランチトランスネットワークであるTransLocatorを提案する。
我々は、Im2GPS、Im2GPS3k、YFCC4k、YFCC26kの4つのベンチマークデータセットでTransLocatorを評価し、5.5%、14.1%、4.9%、9.9%の大陸レベルの精度改善を得た。
- 参考スコア(独自算出の注目度): 48.69031054573838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predicting the geographic location (geo-localization) from a single
ground-level RGB image taken anywhere in the world is a very challenging
problem. The challenges include huge diversity of images due to different
environmental scenarios, drastic variation in the appearance of the same
location depending on the time of the day, weather, season, and more
importantly, the prediction is made from a single image possibly having only a
few geo-locating cues. For these reasons, most existing works are restricted to
specific cities, imagery, or worldwide landmarks. In this work, we focus on
developing an efficient solution to planet-scale single-image geo-localization.
To this end, we propose TransLocator, a unified dual-branch transformer network
that attends to tiny details over the entire image and produces robust feature
representation under extreme appearance variations. TransLocator takes an RGB
image and its semantic segmentation map as inputs, interacts between its two
parallel branches after each transformer layer, and simultaneously performs
geo-localization and scene recognition in a multi-task fashion. We evaluate
TransLocator on four benchmark datasets - Im2GPS, Im2GPS3k, YFCC4k, YFCC26k and
obtain 5.5%, 14.1%, 4.9%, 9.9% continent-level accuracy improvement over the
state-of-the-art. TransLocator is also validated on real-world test images and
found to be more effective than previous methods.
- Abstract(参考訳): 世界各地で撮影された地上レベルのRGB画像から地理的位置(ジオローカライゼーション)を予測することは、非常に難しい問題です。
課題は、異なる環境シナリオによる画像の多様性、日、天候、季節などによって同じ場所の外観が劇的に変化すること、そしてさらに重要なことに、この予測は、おそらくわずかな地理的な手がかりしか持たない単一の画像からなされる。
これらの理由から、現存する作品のほとんどは特定の都市、画像、世界的ランドマークに限られている。
本研究では,惑星規模の単一画像のジオローカライゼーションのための効率的なソリューションの開発に焦点をあてる。
そこで本研究では,画像全体の細部を細部まで把握し,極端な外観変化下でロバストな特徴表現を生成する,統一型デュアルブランチトランスフォーマーネットワークであるtranslocatorを提案する。
TransLocatorは、RGBイメージとそのセマンティックセグメンテーションマップを入力として、トランスフォーマー層の各後の2つの並列ブランチ間で相互作用し、同時にマルチタスク方式でジオローカライズとシーン認識を行う。
我々は,im2gps,im2gps3k,yfcc4k,yfcc26kの4つのベンチマークデータセットでトランスロケータを評価し,5.5%,14.1%,4.9%,9.9%の大陸レベルの精度向上を達成した。
TransLocatorは実世界のテスト画像でも検証され、従来の方法よりも効果的であることが判明した。
関連論文リスト
- G3: An Effective and Adaptive Framework for Worldwide Geolocalization Using Large Multi-Modality Models [40.69217368870192]
我々は、レトリーバル拡張世代(RAG)に基づく世界規模の地理的ローカライゼーションのための新しい枠組みを提案する。
G3は、ジオアライメント、ジオディバーシフィケーション、ジオビジュアライゼーションの3つのステップから構成される。
2つの確立されたデータセットの実験は、他の最先端手法と比較してG3の優位性を検証する。
論文 参考訳(メタデータ) (2024-05-23T15:37:06Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - PIGEON: Predicting Image Geolocations [44.99833362998488]
本稿では, セマンティックジオセル生成, マルチタスクコントラスト事前学習, 新たな損失関数を組み合わせた新しいジオローカライズシステムを提案する。
PIGEOTTOは、目に見えない場所に効果的に一般化する最初の画像ジオローカライズモデルである。
論文 参考訳(メタデータ) (2023-07-11T23:36:49Z) - Where We Are and What We're Looking At: Query Based Worldwide Image
Geo-localization Using Hierarchies and Scenes [53.53712888703834]
地理的レベルの異なる関係を利用して、エンドツーエンドのトランスフォーマーベースのアーキテクチャを導入する。
4つの標準ジオローカライゼーションデータセット上で,アートストリートレベルの精度を実現する。
論文 参考訳(メタデータ) (2023-03-07T21:47:58Z) - TransGeo: Transformer Is All You Need for Cross-view Image
Geo-localization [81.70547404891099]
クロスビュー画像のジオローカライゼーションのためのCNNに基づく手法は,大域的相関をモデル化できない。
本稿では,これらの制約に対処するためのトランスジェオ (TransGeo) を提案する。
TransGeoは、都市と農村の両方のデータセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-03-31T21:19:41Z) - Accurate 3-DoF Camera Geo-Localization via Ground-to-Satellite Image
Matching [102.39635336450262]
地上で取得したクエリ画像とジオタグ付き衛星画像の大規模データベースとをマッチングすることにより、地上から衛星画像のジオローカライズの問題に対処する。
我々の新しい手法は、衛星画像のピクセルサイズの精度まで、クエリー画像のきめ細かい位置を達成できる。
論文 参考訳(メタデータ) (2022-03-26T20:10:38Z) - Hierarchical Attention Fusion for Geo-Localization [7.544917072241684]
地理的ローカライゼーションのためのマルチスケール特徴を用いた階層型アテンション融合ネットワークを提案する。
畳み込みニューラルネットワーク(cnn)から階層的特徴マップを抽出し,抽出した特徴を画像表現に有機的に融合する。
学習は適応重みを用いて自己監督され,各階層レベルから特徴強調の注意を制御できる。
論文 参考訳(メタデータ) (2021-02-18T07:07:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。