論文の概要: VLMs as GeoGuessr Masters: Exceptional Performance, Hidden Biases, and Privacy Risks
- arxiv url: http://arxiv.org/abs/2502.11163v1
- Date: Sun, 16 Feb 2025 15:28:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:15:46.983338
- Title: VLMs as GeoGuessr Masters: Exceptional Performance, Hidden Biases, and Privacy Risks
- Title(参考訳): GeoGuessrマスタとしてのVLM - 例外パフォーマンス、隠れバイアス、プライバシリスク
- Authors: Jingyuan Huang, Jen-tse Huang, Ziyi Liu, Xiaoyuan Liu, Wenxuan Wang, Jieyu Zhao,
- Abstract要約: VLM(Visual-Language Models)は、様々なタスクで顕著なパフォーマンスを示している。
詳細な地理メタデータと組み合わせた1200枚の画像からなるベンチマークデータセットを提案する。
これらのモデルは画像から地理情報を認識する能力を示すが、地域的偏見は顕著である。
- 参考スコア(独自算出の注目度): 44.69950059419091
- License:
- Abstract: Visual-Language Models (VLMs) have shown remarkable performance across various tasks, particularly in recognizing geographic information from images. However, significant challenges remain, including biases and privacy concerns. To systematically address these issues in the context of geographic information recognition, we introduce a benchmark dataset consisting of 1,200 images paired with detailed geographic metadata. Evaluating four VLMs, we find that while these models demonstrate the ability to recognize geographic information from images, achieving up to $53.8\%$ accuracy in city prediction, they exhibit significant regional biases. Specifically, performance is substantially higher for economically developed and densely populated regions compared to less developed ($-12.5\%$) and sparsely populated ($-17.0\%$) areas. Moreover, the models exhibit regional biases, frequently overpredicting certain locations; for instance, they consistently predict Sydney for images taken in Australia. The strong performance of VLMs also raises privacy concerns, particularly for users who share images online without the intent of being identified. Our code and dataset are publicly available at https://github.com/uscnlp-lime/FairLocator.
- Abstract(参考訳): VLM(Visual-Language Models)は、特に画像からの地理情報の認識において、様々なタスクにおいて顕著な性能を示している。
しかし、バイアスやプライバシーの懸念など、大きな課題が残っている。
地理情報認識の文脈でこれらの問題に体系的に対処するために,詳細な地理メタデータと組み合わせた1200枚の画像からなるベンチマークデータセットを提案する。
4つのVLMを評価すると、これらのモデルは画像から地理情報を認識できることを示し、都市予測において最大53.8 %の精度で達成できることが分かるが、地域的偏見は顕著である。
特に経済的に発達した地域や人口密度の高い地域では、開発が進んでいない地域(12.5 %$)や人口の少ない地域(-17.0 %$)に比べてパフォーマンスが著しく高い。
さらに、これらのモデルは地域バイアスを示し、しばしば特定の場所を過度に予測する。
VLMの強力なパフォーマンスは、特に画像の特定を意図せずにオンラインで共有するユーザに対して、プライバシー上の懸念を提起する。
私たちのコードとデータセットはhttps://github.com/uscnlp-lime/FairLocator.comで公開されています。
関連論文リスト
- Evaluating Precise Geolocation Inference Capabilities of Vision Language Models [0.0]
本稿では,Googleストリートビューから収集したベンチマークデータセットについて紹介する。
基礎モデルは単一画像の位置推定に基づいて評価され、その多くが300kmの中央値誤差を達成している。
さらに,補助具へのアクセスによりVLMの「エージェント」を評価し,最大30.6%の距離誤差を観察した。
論文 参考訳(メタデータ) (2025-02-20T09:59:28Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、視覚条件、オブジェクトタイプ、スケールのさまざまなバリエーションをカバーしています。
地理空間内での精度を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - Image-Based Geolocation Using Large Vision-Language Models [19.071551941682063]
画像に基づく位置情報の精度を大幅に向上する革新的なフレームワークであるToolを紹介した。
ツールは体系的なチェーン・オブ・シント(CoT)アプローチを採用し、人間のジオゲスティング戦略を模倣する。
GeoGuessrゲームの平均スコアは4550.5で85.37%で、高精度な位置情報予測を行う。
論文 参考訳(メタデータ) (2024-08-18T13:39:43Z) - Granular Privacy Control for Geolocation with Vision Language Models [36.3455665044992]
GPTGeoChatと呼ばれる新しいベンチマークを開発し、ユーザとの位置情報対話を適度に行うビジョン言語モデルの能力をテストする。
我々は,室内アノテータとGPT-4v間の1,000の画像位置情報の会話を収集する。
位置情報が多すぎるかどうかを判断することで,GPT-4vの位置情報会話を適度に行う様々なVLMの能力を評価する。
論文 参考訳(メタデータ) (2024-07-06T04:06:55Z) - Regional biases in image geolocation estimation: a case study with the SenseCity Africa dataset [0.0]
我々は,アフリカ大陸(SCA100)から得られた画像のクラウドソースデータセットに対して,最先端の画像位置推定モデル(ISNs)を適用した。
欧米の高所得国では,ISNsモデルでは画像位置を過大に予測する傾向がみられた。
この結果から,IM2GPS3kを画像位置情報推定のトレーニングセットおよびベンチマークとして用いると,アフリカにおける潜在的な応用を見落としてしまうことが示唆された。
論文 参考訳(メタデータ) (2024-04-03T08:27:24Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - GeoNet: Benchmarking Unsupervised Adaptation across Geographies [71.23141626803287]
地理的ロバスト性の問題について検討し、3つの主要な貢献を行う。
まず,地理的適応のための大規模データセットGeoNetを紹介する。
第2に、シーンコンテキストにおける大きな変化から、ドメインシフトの主な原因が生じるという仮説を立てる。
第3に、最先端の教師なしドメイン適応アルゴリズムとアーキテクチャを広範囲に評価する。
論文 参考訳(メタデータ) (2023-03-27T17:59:34Z) - Geographic and Geopolitical Biases of Language Models [43.62238334380897]
プレトレーニング言語モデル(PLM)における地理的バイアス(と知識)の研究手法を提案する。
以上の結果から, PLMの表現は, 国・国・国間の関連性の観点から, 物理的世界と驚くほどよく一致していることが示唆された。
最後に, 地理的近接性の概念を呈するにもかかわらず, PLMがいかに大きいかを説明する。
論文 参考訳(メタデータ) (2022-12-20T16:32:54Z) - Broaden the Vision: Geo-Diverse Visual Commonsense Reasoning [49.04866469947569]
地理的・地理的・地理的な共通点を理解する視覚・言語モデルの能力をテストするために,Geo-Diverse Visual Commonsense Reasoning dataset(GD-VCR)を構築した。
その結果,東アジア,南アジア,アフリカを含む非西欧地域での両モデルの性能は,西欧地域に比べて著しく低いことがわかった。
論文 参考訳(メタデータ) (2021-09-14T17:52:55Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。