論文の概要: Street-Level Geolocalization Using Multimodal Large Language Models and Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2509.01341v1
- Date: Mon, 01 Sep 2025 10:23:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.646597
- Title: Street-Level Geolocalization Using Multimodal Large Language Models and Retrieval-Augmented Generation
- Title(参考訳): マルチモーダル大言語モデルと検索拡張生成を用いた街路レベルジオローカライゼーション
- Authors: Yunus Serhat Bicakci, Joseph Shingleton, Anahid Basiri,
- Abstract要約: 画像からのストリートレベルの地理的ローカライゼーションは、ナビゲーション、位置ベースレコメンデーション、都市計画など、幅広いアプリケーションやサービスにとって不可欠である。
本稿では,オープンウェイトおよびパブリックアクセス可能なマルチモーダルな大規模言語モデルと検索強化世代を統合した新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Street-level geolocalization from images is crucial for a wide range of essential applications and services, such as navigation, location-based recommendations, and urban planning. With the growing popularity of social media data and cameras embedded in smartphones, applying traditional computer vision techniques to localize images has become increasingly challenging, yet highly valuable. This paper introduces a novel approach that integrates open-weight and publicly accessible multimodal large language models with retrieval-augmented generation. The method constructs a vector database using the SigLIP encoder on two large-scale datasets (EMP-16 and OSV-5M). Query images are augmented with prompts containing both similar and dissimilar geolocation information retrieved from this database before being processed by the multimodal large language models. Our approach has demonstrated state-of-the-art performance, achieving higher accuracy compared against three widely used benchmark datasets (IM2GPS, IM2GPS3k, and YFCC4k). Importantly, our solution eliminates the need for expensive fine-tuning or retraining and scales seamlessly to incorporate new data sources. The effectiveness of retrieval-augmented generation-based multimodal large language models in geolocation estimation demonstrated by this paper suggests an alternative path to the traditional methods which rely on the training models from scratch, opening new possibilities for more accessible and scalable solutions in GeoAI.
- Abstract(参考訳): 画像からのストリートレベルの地理的ローカライゼーションは、ナビゲーション、位置ベースレコメンデーション、都市計画など、幅広いアプリケーションやサービスにとって不可欠である。
スマートフォンに埋め込まれたソーシャルメディアデータやカメラの普及に伴い、画像のローカライズに伝統的なコンピュータビジョン技術を適用することはますます困難になっているが、非常に価値が高い。
本稿では,オープンウェイトおよびパブリックアクセス可能なマルチモーダルな大規模言語モデルと検索強化世代を統合した新しいアプローチを提案する。
本手法は,2つの大規模データセット(EMP-16とOSV-5M)上でSigLIPエンコーダを用いてベクトルデータベースを構築する。
クエリイメージは、マルチモーダルな大言語モデルによって処理される前に、このデータベースから取得した類似および異種位置情報の両方を含むプロンプトで拡張される。
我々の手法は最先端の性能を示し、広く使われている3つのベンチマークデータセット(IM2GPS, IM2GPS3k, YFCC4k)と比較して精度が高い。
重要なことは、我々のソリューションは高価な微調整や再訓練の必要性をなくし、シームレスに新しいデータソースを組み込む。
本論文は,ジオAIの学習モデルをスクラッチから構築し,よりアクセシブルでスケーラブルなソリューションに新たな可能性を開く,従来の手法に代わる方法を提案する。
関連論文リスト
- OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence [51.0456395687016]
マルチモーダル大言語モデル(LLM)が人工知能の新しいフロンティアをオープンした。
地理空間応用に適したMLLM(OmniGeo)を提案する。
自然言語理解の長所と空間的推論の長所を組み合わせることで,GeoAIシステムの指示追従能力と精度を高めることができる。
論文 参考訳(メタデータ) (2025-03-20T16:45:48Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - Visual Geo-Localization from images [0.5371337604556311]
本稿では,GPSデータに頼らずに画像から位置の地理的な位置を決定できる視覚的位置情報化システムを提案する。
提案手法は, 位置認識のためのスケール不変特徴変換(SIFT), 道路接合型識別のための従来の画像処理, 道路接合の分類のためのVGG16モデルを用いたディープラーニングの3つの主要な手法を統合する。
論文 参考訳(メタデータ) (2024-07-20T15:47:21Z) - AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - Img2Loc: Revisiting Image Geolocalization using Multi-modality Foundation Models and Image-based Retrieval-Augmented Generation [9.161203553842787]
画像位置情報をテキスト生成タスクとして再定義する新しいシステムであるImg2Locを提案する。
Img2LocはまずCLIPベースの表現を使用して画像ベースの座標クエリデータベースを生成する。
そして、クエリ結果と画像自体を一意に結合し、LMM用にカスタマイズされた精巧なプロンプトを形成する。
Im2GPS3kやYFCC4kのようなベンチマークデータセットでテストする場合、Img2Locは従来の最先端モデルのパフォーマンスを上回るだけでなく、モデルトレーニングなしでテストする。
論文 参考訳(メタデータ) (2024-03-28T17:07:02Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。