論文の概要: G3: An Effective and Adaptive Framework for Worldwide Geolocalization Using Large Multi-Modality Models
- arxiv url: http://arxiv.org/abs/2405.14702v1
- Date: Thu, 23 May 2024 15:37:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 14:16:19.451531
- Title: G3: An Effective and Adaptive Framework for Worldwide Geolocalization Using Large Multi-Modality Models
- Title(参考訳): G3: 大規模多モードモデルを用いた世界規模のジオローカライゼーションのための効果的で適応的なフレームワーク
- Authors: Pengyue Jia, Yiding Liu, Xiaopeng Li, Xiangyu Zhao, Yuhao Wang, Yantong Du, Xiao Han, Xuetao Wei, Shuaiqiang Wang, Dawei Yin,
- Abstract要約: 我々は、レトリーバル拡張世代(RAG)に基づく世界規模の地理的ローカライゼーションのための新しい枠組みを提案する。
G3は、ジオアライメント、ジオディバーシフィケーション、ジオビジュアライゼーションの3つのステップから構成される。
2つの確立されたデータセットの実験は、他の最先端手法と比較してG3の優位性を検証する。
- 参考スコア(独自算出の注目度): 40.692173688701914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Worldwide geolocalization aims to locate the precise location at the coordinate level of photos taken anywhere on the Earth. It is very challenging due to 1) the difficulty of capturing subtle location-aware visual semantics, and 2) the heterogeneous geographical distribution of image data. As a result, existing studies have clear limitations when scaled to a worldwide context. They may easily confuse distant images with similar visual contents, or cannot adapt to various locations worldwide with different amounts of relevant data. To resolve these limitations, we propose G3, a novel framework based on Retrieval-Augmented Generation (RAG). In particular, G3 consists of three steps, i.e., Geo-alignment, Geo-diversification, and Geo-verification to optimize both retrieval and generation phases of worldwide geolocalization. During Geo-alignment, our solution jointly learns expressive multi-modal representations for images, GPS and textual descriptions, which allows us to capture location-aware semantics for retrieving nearby images for a given query. During Geo-diversification, we leverage a prompt ensembling method that is robust to inconsistent retrieval performance for different image queries. Finally, we combine both retrieved and generated GPS candidates in Geo-verification for location prediction. Experiments on two well-established datasets IM2GPS3k and YFCC4k verify the superiority of G3 compared to other state-of-the-art methods.
- Abstract(参考訳): 世界規模の地理的ローカライゼーションは、地球上のどこでも撮影された写真の座標レベルで正確な位置を見つけることを目的としている。
それはとても難しいです。
1)微妙な位置認識視覚意味論の把握の難しさ
2)画像データの異種地理的分布
その結果、既存の研究は世界規模で規模を拡大する際、明らかな限界がある。
類似した視覚的内容で容易に遠方の画像を混同したり、様々な場所に異なる量の関連データで適応することはできない。
これらの制約を解決するため、我々は検索型拡張生成(RAG)に基づく新しいフレームワークであるG3を提案する。
特に、G3は、グローバルなジオローカライゼーションの検索フェーズと生成フェーズを最適化するために、ジオアライメント、ジオ多様性、ジオビジョライゼーションの3つのステップで構成されている。
ジオアライメントでは,画像,GPS,テキスト記述の表現的マルチモーダル表現を共同で学習し,位置認識のセマンティクスを抽出して検索する。
ジオ・ディバイシフィケーションでは,画像クエリに対する不整合検索性能に頑健なプロンプト・アンサンブル法を利用する。
最後に,Geo-verificationで取得したGPS候補と生成したGPS候補を組み合わせ,位置情報の予測を行う。
2つの確立されたデータセット IM2GPS3k と YFCC4k の実験は、他の最先端手法と比較して G3 の優位性を検証する。
関連論文リスト
- Enhancing Worldwide Image Geolocation by Ensembling Satellite-Based Ground-Level Attribute Predictors [4.415977307120618]
本稿では,推定位置分布の精度を計測する新しい指標であるリコール対エリア(RvA)を紹介する。
RvAは、文書検索と同様の画像位置情報を扱い、リコールを領域の関数として測定する。
次に、複数のソースからの情報を組み込んでドメインシフトに対処する、グローバルな画像位置情報に対する単純なアンサンブルアプローチについて検討する。
論文 参考訳(メタデータ) (2024-07-18T19:15:52Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。
オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。
我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (2023-05-11T03:21:56Z) - GeoNet: Benchmarking Unsupervised Adaptation across Geographies [71.23141626803287]
地理的ロバスト性の問題について検討し、3つの主要な貢献を行う。
まず,地理的適応のための大規模データセットGeoNetを紹介する。
第2に、シーンコンテキストにおける大きな変化から、ドメインシフトの主な原因が生じるという仮説を立てる。
第3に、最先端の教師なしドメイン適応アルゴリズムとアーキテクチャを広範囲に評価する。
論文 参考訳(メタデータ) (2023-03-27T17:59:34Z) - G^3: Geolocation via Guidebook Grounding [92.46774241823562]
本研究では,人間が位置情報に用いている視覚的特徴を記述した人書きガイドブックから,明示的な知識について検討する。
多様な場所からのストリートビュー画像のデータセットを用いたガイドブックグラウンディングによるジオロケーションのタスクを提案する。
提案手法は,Top-1の精度が5%以上向上し,最先端の画像のみの位置決め法よりも大幅に向上する。
論文 参考訳(メタデータ) (2022-11-28T16:34:40Z) - Where in the World is this Image? Transformer-based Geo-localization in
the Wild [48.69031054573838]
世界各地で撮影された地上レベルのRGB画像から地理的位置(ジオローカライゼーション)を予測することは、非常に難しい問題です。
画像全体の細部を網羅する統合型デュアルブランチトランスネットワークであるTransLocatorを提案する。
我々は、Im2GPS、Im2GPS3k、YFCC4k、YFCC26kの4つのベンチマークデータセットでTransLocatorを評価し、5.5%、14.1%、4.9%、9.9%の大陸レベルの精度改善を得た。
論文 参考訳(メタデータ) (2022-04-29T03:27:23Z) - Visual and Object Geo-localization: A Comprehensive Survey [11.120155713865918]
ジオローカライゼーション(ジオローカライゼーション)とは、地球上の「ある実体がどこにあるか」を決定する過程のこと。
本稿では、画像の撮影場所(画像ジオローカライゼーション)や画像内の物体の位置決め(オブジェクトジオローカライゼーション)を含む、画像を含む画像の地理的ローカライゼーションに関する包括的調査を行う。
本稿では、一般的なアルゴリズムの要約、提案したデータセットの説明、各分野の現状を説明するためのパフォーマンス結果の分析など、詳細な研究を行う。
論文 参考訳(メタデータ) (2021-12-30T20:46:53Z) - Hierarchical Attention Fusion for Geo-Localization [7.544917072241684]
地理的ローカライゼーションのためのマルチスケール特徴を用いた階層型アテンション融合ネットワークを提案する。
畳み込みニューラルネットワーク(cnn)から階層的特徴マップを抽出し,抽出した特徴を画像表現に有機的に融合する。
学習は適応重みを用いて自己監督され,各階層レベルから特徴強調の注意を制御できる。
論文 参考訳(メタデータ) (2021-02-18T07:07:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。