論文の概要: NAVIG: Natural Language-guided Analysis with Vision Language Models for Image Geo-localization
- arxiv url: http://arxiv.org/abs/2502.14638v1
- Date: Thu, 20 Feb 2025 15:21:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:29:36.777556
- Title: NAVIG: Natural Language-guided Analysis with Vision Language Models for Image Geo-localization
- Title(参考訳): NAVIG:画像ジオローカライゼーションのための視覚言語モデルを用いた自然言語誘導解析
- Authors: Zheyuan Zhang, Runze Li, Tasnim Kabir, Jordan Boyd-Graber,
- Abstract要約: 我々は,大域的および微粒な画像情報を統合した包括的画像ジオローカライズフレームワークであるNavigを紹介する。
言語による推論により、Navigは従来の最先端モデルと比較して平均距離誤差を14%削減する。
- 参考スコア(独自算出の注目度): 11.037269841281727
- License:
- Abstract: Image geo-localization is the task of predicting the specific location of an image and requires complex reasoning across visual, geographical, and cultural contexts. While prior Vision Language Models (VLMs) have the best accuracy at this task, there is a dearth of high-quality datasets and models for analytical reasoning. We first create NaviClues, a high-quality dataset derived from GeoGuessr, a popular geography game, to supply examples of expert reasoning from language. Using this dataset, we present Navig, a comprehensive image geo-localization framework integrating global and fine-grained image information. By reasoning with language, Navig reduces the average distance error by 14% compared to previous state-of-the-art models while requiring fewer than 1000 training samples. Our dataset and code are available at https://github.com/SparrowZheyuan18/Navig/.
- Abstract(参考訳): 画像ジオローカライゼーション(英: Image geo-localization)は、画像の特定の位置を予測するタスクであり、視覚的、地理的、文化的な文脈にまたがる複雑な推論を必要とする。
従来のビジョン言語モデル(VLM)はこのタスクで最高の精度を持つが、分析的推論のための高品質なデータセットとモデルが存在する。
まず、人気のある地理ゲームGeoGuessrから派生した高品質なデータセットであるNaviCluesを作成し、言語から専門家による推論の例を提供する。
このデータセットを用いて,大域的および微粒な画像情報を統合する包括的画像ジオローカライゼーションフレームワークであるNavigを提案する。
言語による推論により、Navigは従来の最先端モデルと比較して平均距離誤差を14%削減し、1000以上のトレーニングサンプルを必要とする。
データセットとコードはhttps://github.com/SparrowZheyuan18/Navig/で公開しています。
関連論文リスト
- Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。
大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。
また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文 参考訳(メタデータ) (2025-02-19T14:21:25Z) - Image-Based Geolocation Using Large Vision-Language Models [19.071551941682063]
画像に基づく位置情報の精度を大幅に向上する革新的なフレームワークであるToolを紹介した。
ツールは体系的なチェーン・オブ・シント(CoT)アプローチを採用し、人間のジオゲスティング戦略を模倣する。
GeoGuessrゲームの平均スコアは4550.5で85.37%で、高精度な位置情報予測を行う。
論文 参考訳(メタデータ) (2024-08-18T13:39:43Z) - Towards Vision-Language Geo-Foundation Model: A Survey [65.70547895998541]
Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。
本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
論文 参考訳(メタデータ) (2024-06-13T17:57:30Z) - Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching [60.645802236700035]
自然言語コマンドを通じてドローンをナビゲートすることは、アクセス可能なマルチモーダルデータセットが不足しているため、依然として難しい。
我々は新しい自然言語誘導ジオローカライゼーションベンチマークGeoText-1652を紹介する。
このデータセットは、インタラクティブなヒューマンコンピュータプロセスを通じて体系的に構築される。
論文 参考訳(メタデータ) (2023-11-21T17:52:30Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - PIGEON: Predicting Image Geolocations [44.99833362998488]
本稿では, セマンティックジオセル生成, マルチタスクコントラスト事前学習, 新たな損失関数を組み合わせた新しいジオローカライズシステムを提案する。
PIGEOTTOは、目に見えない場所に効果的に一般化する最初の画像ジオローカライズモデルである。
論文 参考訳(メタデータ) (2023-07-11T23:36:49Z) - GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。
オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。
我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (2023-05-11T03:21:56Z) - G^3: Geolocation via Guidebook Grounding [92.46774241823562]
本研究では,人間が位置情報に用いている視覚的特徴を記述した人書きガイドブックから,明示的な知識について検討する。
多様な場所からのストリートビュー画像のデータセットを用いたガイドブックグラウンディングによるジオロケーションのタスクを提案する。
提案手法は,Top-1の精度が5%以上向上し,最先端の画像のみの位置決め法よりも大幅に向上する。
論文 参考訳(メタデータ) (2022-11-28T16:34:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。