Fugu-MT 論文翻訳(概要): NAVIG: Natural Language-guided Analysis with Vision Language Models for Image Geo-localization

論文の概要: NAVIG: Natural Language-guided Analysis with Vision Language Models for Image Geo-localization

arxiv url: http://arxiv.org/abs/2502.14638v1
Date: Thu, 20 Feb 2025 15:21:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-21 22:18:11.714569
Title: NAVIG: Natural Language-guided Analysis with Vision Language Models for Image Geo-localization
Title（参考訳）: NAVIG:画像ジオローカライゼーションのための視覚言語モデルを用いた自然言語誘導解析
Authors: Zheyuan Zhang, Runze Li, Tasnim Kabir, Jordan Boyd-Graber,
Abstract要約: 我々は,大域的および微粒な画像情報を統合した包括的画像ジオローカライズフレームワークであるNavigを紹介する。言語による推論により、Navigは従来の最先端モデルと比較して平均距離誤差を14%削減する。
参考スコア（独自算出の注目度）: 11.037269841281727
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image geo-localization is the task of predicting the specific location of an image and requires complex reasoning across visual, geographical, and cultural contexts. While prior Vision Language Models (VLMs) have the best accuracy at this task, there is a dearth of high-quality datasets and models for analytical reasoning. We first create NaviClues, a high-quality dataset derived from GeoGuessr, a popular geography game, to supply examples of expert reasoning from language. Using this dataset, we present Navig, a comprehensive image geo-localization framework integrating global and fine-grained image information. By reasoning with language, Navig reduces the average distance error by 14% compared to previous state-of-the-art models while requiring fewer than 1000 training samples. Our dataset and code are available at https://github.com/SparrowZheyuan18/Navig/.
Abstract（参考訳）: 画像ジオローカライゼーション(英: Image geo-localization)は、画像の特定の位置を予測するタスクであり、視覚的、地理的、文化的な文脈にまたがる複雑な推論を必要とする。従来のビジョン言語モデル(VLM)はこのタスクで最高の精度を持つが、分析的推論のための高品質なデータセットとモデルが存在する。まず、人気のある地理ゲームGeoGuessrから派生した高品質なデータセットであるNaviCluesを作成し、言語から専門家による推論の例を提供する。このデータセットを用いて,大域的および微粒な画像情報を統合する包括的画像ジオローカライゼーションフレームワークであるNavigを提案する。言語による推論により、Navigは従来の最先端モデルと比較して平均距離誤差を14%削減し、1000以上のトレーニングサンプルを必要とする。データセットとコードはhttps://github.com/SparrowZheyuan18/Navig/で公開しています。

関連論文リスト

GeoBridge: A Semantic-Anchored Multi-View Foundation Model Bridging Images and Text for Geo-Localization [36.20562550716618]
クロスビュージオローカライゼーションは、クエリ画像に視覚的に対応するジオタグ付き参照画像を取得することで位置を推測する。従来の衛星中心のパラダイムは、高解像度または最新の衛星画像が利用できない場合にロバスト性を制限する。ビュー間の双方向マッチングを行うモデルであるGeoBridgeを提案する。
論文参考訳（メタデータ） (2025-12-02T12:28:22Z)
GeoArena: An Open Platform for Benchmarking Large Vision-language Models on WorldWide Image Geolocalization [21.941170274245223]
画像のジオローカライゼーションは、地球上のどこでも撮影された画像の地理的位置を予測することを目的としている。現在の評価手法には2つの大きな制限がある。グローバルな画像位置決めタスク上でLVLMを評価するための,最初のオープンプラットフォームであるGeoArenaを提案する。
論文参考訳（メタデータ） (2025-09-04T15:52:04Z)
GeoRanker: Distance-Aware Ranking for Worldwide Image Geolocalization [30.983556433953076]
画像ジオローカライズのための距離対応ランキングフレームワークGeoRankerを提案する。絶対距離と相対距離の両方をランク付けする多階距離損失を導入し、構造的空間関係をモデル化する。 GeoRankerは、2つの確立されたベンチマークで最先端の結果を達成する。
論文参考訳（メタデータ） (2025-05-19T21:04:46Z)
GeoVLM: Improving Automated Vehicle Geolocalisation Using Vision-Language Matching [6.8045687415659275]
クロスビュージオローカライゼーションは、地上レベルの画像とジオタグ付き衛星画像とをデータベースからマッチングすることにより、車両の粗い地理的位置を特定する。既存のアプローチは高いリコールレートに達するが、それでもトップマッチとして正しいイメージのランク付けに失敗している。本稿では、視覚言語モデルのゼロショット機能を利用して、クロスビューなジオローカライゼーションを実現する新しいアプローチであるGeoVLMを提案する。
論文参考訳（メタデータ） (2025-05-19T19:17:06Z)
Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文参考訳（メタデータ） (2025-02-19T14:21:25Z)
Image-Based Geolocation Using Large Vision-Language Models [19.071551941682063]
画像に基づく位置情報の精度を大幅に向上する革新的なフレームワークであるToolを紹介した。ツールは体系的なチェーン・オブ・シント(CoT)アプローチを採用し、人間のジオゲスティング戦略を模倣する。 GeoGuessrゲームの平均スコアは4550.5で85.37%で、高精度な位置情報予測を行う。
論文参考訳（メタデータ） (2024-08-18T13:39:43Z)
Towards Vision-Language Geo-Foundation Model: A Survey [65.70547895998541]
Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
論文参考訳（メタデータ） (2024-06-13T17:57:30Z)
Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching [60.645802236700035]
自然言語コマンドを通じてドローンをナビゲートすることは、アクセス可能なマルチモーダルデータセットが不足しているため、依然として難しい。我々は新しい自然言語誘導ジオローカライゼーションベンチマークGeoText-1652を紹介する。このデータセットは、インタラクティブなヒューマンコンピュータプロセスを通じて体系的に構築される。
論文参考訳（メタデータ） (2023-11-21T17:52:30Z)
GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文参考訳（メタデータ） (2023-09-27T20:54:56Z)
PIGEON: Predicting Image Geolocations [44.99833362998488]
本稿では, セマンティックジオセル生成, マルチタスクコントラスト事前学習, 新たな損失関数を組み合わせた新しいジオローカライズシステムを提案する。 PIGEOTTOは、目に見えない場所に効果的に一般化する最初の画像ジオローカライズモデルである。
論文参考訳（メタデータ） (2023-07-11T23:36:49Z)
GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文参考訳（メタデータ） (2023-05-11T03:21:56Z)
G^3: Geolocation via Guidebook Grounding [92.46774241823562]
本研究では,人間が位置情報に用いている視覚的特徴を記述した人書きガイドブックから,明示的な知識について検討する。多様な場所からのストリートビュー画像のデータセットを用いたガイドブックグラウンディングによるジオロケーションのタスクを提案する。提案手法は,Top-1の精度が5%以上向上し,最先端の画像のみの位置決め法よりも大幅に向上する。
論文参考訳（メタデータ） (2022-11-28T16:34:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。