論文の概要: VLMs as GeoGuessr Masters: Exceptional Performance, Hidden Biases, and Privacy Risks
- arxiv url: http://arxiv.org/abs/2502.11163v2
- Date: Tue, 20 May 2025 02:49:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:51.795999
- Title: VLMs as GeoGuessr Masters: Exceptional Performance, Hidden Biases, and Privacy Risks
- Title(参考訳): GeoGuessrマスタとしてのVLM - 例外パフォーマンス、隠れバイアス、プライバシリスク
- Authors: Jingyuan Huang, Jen-tse Huang, Ziyi Liu, Xiaoyuan Liu, Wenxuan Wang, Jieyu Zhao,
- Abstract要約: 詳細な地理メタデータと組み合わせた1200枚の画像からなるベンチマークを導入する。
これらのモデルは画像から地理情報を認識する能力を示すが、大きなバイアスを示す。
特に、経済的に発達し人口密度の高い地域では、パフォーマンスが著しく高い。
- 参考スコア(独自算出の注目度): 44.69950059419091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual-Language Models (VLMs) have shown remarkable performance across various tasks, particularly in recognizing geographic information from images. However, VLMs still show regional biases in this task. To systematically evaluate these issues, we introduce a benchmark consisting of 1,200 images paired with detailed geographic metadata. Evaluating four VLMs, we find that while these models demonstrate the ability to recognize geographic information from images, achieving up to 53.8% accuracy in city prediction, they exhibit significant biases. Specifically, performance is substantially higher for economically developed and densely populated regions compared to less developed (-12.5%) and sparsely populated (-17.0%) areas. Moreover, regional biases of frequently over-predicting certain locations remain. For instance, they consistently predict Sydney for images taken in Australia, shown by the low entropy scores for these countries. The strong performance of VLMs also raises privacy concerns, particularly for users who share images online without the intent of being identified. Our code and dataset are publicly available at https://github.com/uscnlp-lime/FairLocator.
- Abstract(参考訳): VLM(Visual-Language Models)は、特に画像からの地理情報の認識において、様々なタスクにおいて顕著な性能を示している。
しかしながら、VLMは依然としてこの課題の地域的偏見を示している。
これらの問題を体系的に評価するために,詳細な地理メタデータと組み合わせた1200枚の画像からなるベンチマークを導入する。
4つのVLMを評価することで、これらのモデルが画像から地理情報を認識できることを示し、都市予測において最大53.8%の精度で達成できることが分かるが、大きなバイアスが現れる。
特に、経済発展と人口密度の低い地域(12.5%)と人口密度の低い地域(-17.0%)ではパフォーマンスが著しく高い。
さらに、頻繁に過度に予測される場所の地域バイアスも残っている。
例えば、オーストラリアで撮影された画像は、これらの国々の低いエントロピースコアによって常にシドニーを予測している。
VLMの強力なパフォーマンスは、特に画像の特定を意図せずにオンラインで共有するユーザに対して、プライバシー上の懸念を提起する。
私たちのコードとデータセットはhttps://github.com/uscnlp-lime/FairLocator.comで公開されています。
関連論文リスト
- Evaluating Precise Geolocation Inference Capabilities of Vision Language Models [0.0]
本稿では,Googleストリートビューから収集したベンチマークデータセットについて紹介する。
基礎モデルは単一画像の位置推定に基づいて評価され、その多くが300kmの中央値誤差を達成している。
さらに,補助具へのアクセスによりVLMの「エージェント」を評価し,最大30.6%の距離誤差を観察した。
論文 参考訳(メタデータ) (2025-02-20T09:59:28Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、視覚条件、オブジェクトタイプ、スケールのさまざまなバリエーションをカバーしています。
地理空間内での精度を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - Image-Based Geolocation Using Large Vision-Language Models [19.071551941682063]
画像に基づく位置情報の精度を大幅に向上する革新的なフレームワークであるToolを紹介した。
ツールは体系的なチェーン・オブ・シント(CoT)アプローチを採用し、人間のジオゲスティング戦略を模倣する。
GeoGuessrゲームの平均スコアは4550.5で85.37%で、高精度な位置情報予測を行う。
論文 参考訳(メタデータ) (2024-08-18T13:39:43Z) - Granular Privacy Control for Geolocation with Vision Language Models [36.3455665044992]
GPTGeoChatと呼ばれる新しいベンチマークを開発し、ユーザとの位置情報対話を適度に行うビジョン言語モデルの能力をテストする。
我々は,室内アノテータとGPT-4v間の1,000の画像位置情報の会話を収集する。
位置情報が多すぎるかどうかを判断することで,GPT-4vの位置情報会話を適度に行う様々なVLMの能力を評価する。
論文 参考訳(メタデータ) (2024-07-06T04:06:55Z) - Regional biases in image geolocation estimation: a case study with the SenseCity Africa dataset [0.0]
我々は,アフリカ大陸(SCA100)から得られた画像のクラウドソースデータセットに対して,最先端の画像位置推定モデル(ISNs)を適用した。
欧米の高所得国では,ISNsモデルでは画像位置を過大に予測する傾向がみられた。
この結果から,IM2GPS3kを画像位置情報推定のトレーニングセットおよびベンチマークとして用いると,アフリカにおける潜在的な応用を見落としてしまうことが示唆された。
論文 参考訳(メタデータ) (2024-04-03T08:27:24Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - PIGEON: Predicting Image Geolocations [44.99833362998488]
本稿では, セマンティックジオセル生成, マルチタスクコントラスト事前学習, 新たな損失関数を組み合わせた新しいジオローカライズシステムを提案する。
PIGEOTTOは、目に見えない場所に効果的に一般化する最初の画像ジオローカライズモデルである。
論文 参考訳(メタデータ) (2023-07-11T23:36:49Z) - GeoNet: Benchmarking Unsupervised Adaptation across Geographies [71.23141626803287]
地理的ロバスト性の問題について検討し、3つの主要な貢献を行う。
まず,地理的適応のための大規模データセットGeoNetを紹介する。
第2に、シーンコンテキストにおける大きな変化から、ドメインシフトの主な原因が生じるという仮説を立てる。
第3に、最先端の教師なしドメイン適応アルゴリズムとアーキテクチャを広範囲に評価する。
論文 参考訳(メタデータ) (2023-03-27T17:59:34Z) - Geographic and Geopolitical Biases of Language Models [43.62238334380897]
プレトレーニング言語モデル(PLM)における地理的バイアス(と知識)の研究手法を提案する。
以上の結果から, PLMの表現は, 国・国・国間の関連性の観点から, 物理的世界と驚くほどよく一致していることが示唆された。
最後に, 地理的近接性の概念を呈するにもかかわらず, PLMがいかに大きいかを説明する。
論文 参考訳(メタデータ) (2022-12-20T16:32:54Z) - Broaden the Vision: Geo-Diverse Visual Commonsense Reasoning [49.04866469947569]
地理的・地理的・地理的な共通点を理解する視覚・言語モデルの能力をテストするために,Geo-Diverse Visual Commonsense Reasoning dataset(GD-VCR)を構築した。
その結果,東アジア,南アジア,アフリカを含む非西欧地域での両モデルの性能は,西欧地域に比べて著しく低いことがわかった。
論文 参考訳(メタデータ) (2021-09-14T17:52:55Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。