論文の概要: Assessing the Geolocation Capabilities, Limitations and Societal Risks of Generative Vision-Language Models
- arxiv url: http://arxiv.org/abs/2508.19967v1
- Date: Wed, 27 Aug 2025 15:21:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.680838
- Title: Assessing the Geolocation Capabilities, Limitations and Societal Risks of Generative Vision-Language Models
- Title(参考訳): 生成的視覚・言語モデルにおける位置情報能力・限界・社会的リスクの評価
- Authors: Oliver Grainge, Sania Waheed, Jack Stilgoe, Michael Milford, Shoaib Ehsan,
- Abstract要約: ジオローカライゼーション(Geo-localization)とは、視覚的手がかりだけで画像の位置を特定するタスクである。
VLM(Vision-Language Models)は、正確な画像ジオロケータとして機能する傾向にある。
これにより、ストーキングや監視など、プライバシー上の重大なリスクが生じる。
- 参考スコア(独自算出の注目度): 11.444835352261002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Geo-localization is the task of identifying the location of an image using visual cues alone. It has beneficial applications, such as improving disaster response, enhancing navigation, and geography education. Recently, Vision-Language Models (VLMs) are increasingly demonstrating capabilities as accurate image geo-locators. This brings significant privacy risks, including those related to stalking and surveillance, considering the widespread uses of AI models and sharing of photos on social media. The precision of these models is likely to improve in the future. Despite these risks, there is little work on systematically evaluating the geolocation precision of Generative VLMs, their limits and potential for unintended inferences. To bridge this gap, we conduct a comprehensive assessment of the geolocation capabilities of 25 state-of-the-art VLMs on four benchmark image datasets captured in diverse environments. Our results offer insight into the internal reasoning of VLMs and highlight their strengths, limitations, and potential societal risks. Our findings indicate that current VLMs perform poorly on generic street-level images yet achieve notably high accuracy (61\%) on images resembling social media content, raising significant and urgent privacy concerns.
- Abstract(参考訳): ジオローカライゼーション(Geo-localization)とは、視覚的手がかりだけで画像の位置を特定するタスクである。
災害対応の改善、ナビゲーションの強化、地理教育など、有益な応用がある。
近年、VLM(Vision-Language Models)は、正確な画像ジオロケータとしての機能を示している。
これは、AIモデルの普及とソーシャルメディアでの写真の共有を考慮して、ストーキングや監視に関連するものを含む、重大なプライバシー上のリスクをもたらす。
これらのモデルの精度は将来的に改善される可能性が高い。
これらのリスクにもかかわらず、生成的VLMの位置情報精度、その限界と意図しない推論の可能性について体系的に評価する作業はほとんどない。
このギャップを埋めるために、様々な環境で取得した4つのベンチマーク画像データセット上で、25の最先端VLMの位置推定能力を総合的に評価する。
以上の結果から,VLMの内部的推論の知見が得られ,その強み,限界,潜在的な社会的リスクが浮き彫りになる。
以上の結果から,現在のVLMは,ソーシャルメディアに類似した画像に対して顕著に高い精度(61 %)を達成でき,重要なプライバシー上の懸念を生じさせることが示唆された。
関連論文リスト
- GeoShield: Safeguarding Geolocation Privacy from Vision-Language Models via Adversarial Perturbations [48.78781663571235]
VLM(Vision-Language Models)は、パブリック共有画像からユーザの位置を推測し、ジオプライバシーに重大なリスクをもたらす。
実世界のシナリオにおいて,ロバストなジオプライバシー保護のために設計された,新しい敵対的フレームワークであるGeoShieldを提案する。
論文 参考訳(メタデータ) (2025-08-05T08:37:06Z) - Evaluation of Geolocation Capabilities of Multimodal Large Language Models and Analysis of Associated Privacy Risks [9.003350058345442]
MLLMは、視覚コンテンツのみに基づいて画像の位置を推測することができる。
これは、doxx、監視、その他のセキュリティ脅威を含む、プライバシー侵害の深刻なリスクを引き起こす。
最も先進的な視覚モデルは、1kmの範囲内で最大49%の精度でストリートレベルの画像の起源をローカライズすることができる。
論文 参考訳(メタデータ) (2025-06-30T03:05:30Z) - Evaluating Precise Geolocation Inference Capabilities of Vision Language Models [0.0]
本稿では,Googleストリートビューから収集したベンチマークデータセットについて紹介する。
基礎モデルは単一画像の位置推定に基づいて評価され、その多くが300kmの中央値誤差を達成している。
さらに,補助具へのアクセスによりVLMの「エージェント」を評価し,最大30.6%の距離誤差を観察した。
論文 参考訳(メタデータ) (2025-02-20T09:59:28Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - Image-Based Geolocation Using Large Vision-Language Models [19.071551941682063]
画像に基づく位置情報の精度を大幅に向上する革新的なフレームワークであるToolを紹介した。
ツールは体系的なチェーン・オブ・シント(CoT)アプローチを採用し、人間のジオゲスティング戦略を模倣する。
GeoGuessrゲームの平均スコアは4550.5で85.37%で、高精度な位置情報予測を行う。
論文 参考訳(メタデータ) (2024-08-18T13:39:43Z) - Granular Privacy Control for Geolocation with Vision Language Models [36.3455665044992]
GPTGeoChatと呼ばれる新しいベンチマークを開発し、ユーザとの位置情報対話を適度に行うビジョン言語モデルの能力をテストする。
我々は,室内アノテータとGPT-4v間の1,000の画像位置情報の会話を収集する。
位置情報が多すぎるかどうかを判断することで,GPT-4vの位置情報会話を適度に行う様々なVLMの能力を評価する。
論文 参考訳(メタデータ) (2024-07-06T04:06:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。