Fugu-MT 論文翻訳(概要): G3: An Effective and Adaptive Framework for Worldwide Geolocalization Using Large Multi-Modality Models

論文の概要: G3: An Effective and Adaptive Framework for Worldwide Geolocalization Using Large Multi-Modality Models

arxiv url: http://arxiv.org/abs/2405.14702v2
Date: Thu, 31 Oct 2024 09:08:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.664459
Title: G3: An Effective and Adaptive Framework for Worldwide Geolocalization Using Large Multi-Modality Models
Title（参考訳）: G3: 大規模多モードモデルを用いた世界規模のジオローカライゼーションのための効果的で適応的なフレームワーク
Authors: Pengyue Jia, Yiding Liu, Xiaopeng Li, Yuhao Wang, Yantong Du, Xiao Han, Xuetao Wei, Shuaiqiang Wang, Dawei Yin, Xiangyu Zhao,
Abstract要約: 我々は、レトリーバル拡張世代(RAG)に基づく世界規模の地理的ローカライゼーションのための新しい枠組みを提案する。 G3は、ジオアライメント、ジオディバーシフィケーション、ジオビジュアライゼーションの3つのステップから構成される。 2つの確立されたデータセットの実験は、他の最先端手法と比較してG3の優位性を検証する。
参考スコア（独自算出の注目度）: 40.69217368870192
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Worldwide geolocalization aims to locate the precise location at the coordinate level of photos taken anywhere on the Earth. It is very challenging due to 1) the difficulty of capturing subtle location-aware visual semantics, and 2) the heterogeneous geographical distribution of image data. As a result, existing studies have clear limitations when scaled to a worldwide context. They may easily confuse distant images with similar visual contents, or cannot adapt to various locations worldwide with different amounts of relevant data. To resolve these limitations, we propose G3, a novel framework based on Retrieval-Augmented Generation (RAG). In particular, G3 consists of three steps, i.e., Geo-alignment, Geo-diversification, and Geo-verification to optimize both retrieval and generation phases of worldwide geolocalization. During Geo-alignment, our solution jointly learns expressive multi-modal representations for images, GPS and textual descriptions, which allows us to capture location-aware semantics for retrieving nearby images for a given query. During Geo-diversification, we leverage a prompt ensembling method that is robust to inconsistent retrieval performance for different image queries. Finally, we combine both retrieved and generated GPS candidates in Geo-verification for location prediction. Experiments on two well-established datasets IM2GPS3k and YFCC4k verify the superiority of G3 compared to other state-of-the-art methods. Our code and data are available online for reproduction.
Abstract（参考訳）: 世界規模の地理的ローカライゼーションは、地球上のどこでも撮影された写真の座標レベルで正確な位置を見つけることを目的としている。それはとても難しいです。 1)微妙な位置認識視覚意味論の把握の難しさ 2)画像データの異種地理的分布その結果、既存の研究は世界規模で規模を拡大する際、明らかな限界がある。類似した視覚的内容で容易に遠方の画像を混同したり、様々な場所に異なる量の関連データで適応することはできない。これらの制約を解決するため、我々は検索型拡張生成(RAG)に基づく新しいフレームワークであるG3を提案する。特に、G3は、グローバルなジオローカライゼーションの検索フェーズと生成フェーズを最適化するために、ジオアライメント、ジオ多様性、ジオビジョライゼーションの3つのステップで構成されている。ジオアライメントでは,画像,GPS,テキスト記述の表現的マルチモーダル表現を共同で学習し,位置認識のセマンティクスを抽出して検索する。ジオ・ディバイシフィケーションでは,画像クエリに対する不整合検索性能に頑健なプロンプト・アンサンブル法を利用する。最後に,Geo-verificationで取得したGPS候補と生成したGPS候補を組み合わせ,位置情報の予測を行う。 2つの確立されたデータセット IM2GPS3k と YFCC4k の実験は、他の最先端手法と比較して G3 の優位性を検証する。私たちのコードとデータはオンラインで再生できます。

関連論文リスト

Scaling Image Geo-Localization to Continent Level [48.7766435870634]
本稿では,大陸規模を拡大する大規模地形をまたいだ微粒な地理的局在化を実現するためのハイブリッドアプローチを提案する。我々は、訓練中にプロキシ分類タスクを利用して、正確な位置情報を暗黙的にエンコードするリッチな特徴表現を学習する。我々の評価は,ヨーロッパの大部分をカバーするデータセットのクエリの68%以上を200m以内でローカライズできることを示す。
論文参考訳（メタデータ） (2025-10-30T17:59:35Z)
GeoRanker: Distance-Aware Ranking for Worldwide Image Geolocalization [30.983556433953076]
画像ジオローカライズのための距離対応ランキングフレームワークGeoRankerを提案する。絶対距離と相対距離の両方をランク付けする多階距離損失を導入し、構造的空間関係をモデル化する。 GeoRankerは、2つの確立されたベンチマークで最先端の結果を達成する。
論文参考訳（メタデータ） (2025-05-19T21:04:46Z)
Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文参考訳（メタデータ） (2025-02-19T14:21:25Z)
GaGA: Towards Interactive Global Geolocation Assistant [20.342366228855735]
GaGAは大きな視覚言語モデル(LVLM)上に構築された対話型グローバルジオロケーションアシスタントである画像中の地理的手がかりを発見し、LVLMに埋め込まれた広い世界知識と組み合わせて位置情報を決定する。 GaGAはGWS15kデータセットの最先端のパフォーマンスを達成し、国レベルでは4.57%、都市レベルでは2.92%の精度を向上している。
論文参考訳（メタデータ） (2024-12-12T03:39:44Z)
GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文参考訳（メタデータ） (2023-09-27T20:54:56Z)
GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文参考訳（メタデータ） (2023-05-11T03:21:56Z)
Where We Are and What We're Looking At: Query Based Worldwide Image Geo-localization Using Hierarchies and Scenes [53.53712888703834]
地理的レベルの異なる関係を利用して、エンドツーエンドのトランスフォーマーベースのアーキテクチャを導入する。 4つの標準ジオローカライゼーションデータセット上で,アートストリートレベルの精度を実現する。
論文参考訳（メタデータ） (2023-03-07T21:47:58Z)
G^3: Geolocation via Guidebook Grounding [92.46774241823562]
本研究では,人間が位置情報に用いている視覚的特徴を記述した人書きガイドブックから,明示的な知識について検討する。多様な場所からのストリートビュー画像のデータセットを用いたガイドブックグラウンディングによるジオロケーションのタスクを提案する。提案手法は,Top-1の精度が5%以上向上し,最先端の画像のみの位置決め法よりも大幅に向上する。
論文参考訳（メタデータ） (2022-11-28T16:34:40Z)
Where in the World is this Image? Transformer-based Geo-localization in the Wild [48.69031054573838]
世界各地で撮影された地上レベルのRGB画像から地理的位置(ジオローカライゼーション)を予測することは、非常に難しい問題です。画像全体の細部を網羅する統合型デュアルブランチトランスネットワークであるTransLocatorを提案する。我々は、Im2GPS、Im2GPS3k、YFCC4k、YFCC26kの4つのベンチマークデータセットでTransLocatorを評価し、5.5%、14.1%、4.9%、9.9%の大陸レベルの精度改善を得た。
論文参考訳（メタデータ） (2022-04-29T03:27:23Z)
Visual and Object Geo-localization: A Comprehensive Survey [11.120155713865918]
ジオローカライゼーション(ジオローカライゼーション)とは、地球上の「ある実体がどこにあるか」を決定する過程のこと。本稿では、画像の撮影場所(画像ジオローカライゼーション)や画像内の物体の位置決め(オブジェクトジオローカライゼーション)を含む、画像を含む画像の地理的ローカライゼーションに関する包括的調査を行う。本稿では、一般的なアルゴリズムの要約、提案したデータセットの説明、各分野の現状を説明するためのパフォーマンス結果の分析など、詳細な研究を行う。
論文参考訳（メタデータ） (2021-12-30T20:46:53Z)
Hierarchical Attention Fusion for Geo-Localization [7.544917072241684]
地理的ローカライゼーションのためのマルチスケール特徴を用いた階層型アテンション融合ネットワークを提案する。畳み込みニューラルネットワーク(cnn)から階層的特徴マップを抽出し,抽出した特徴を画像表現に有機的に融合する。学習は適応重みを用いて自己監督され,各階層レベルから特徴強調の注意を制御できる。
論文参考訳（メタデータ） (2021-02-18T07:07:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。