Fugu-MT 論文翻訳(概要): VLMs as GeoGuessr Masters: Exceptional Performance, Hidden Biases, and Privacy Risks

論文の概要: VLMs as GeoGuessr Masters: Exceptional Performance, Hidden Biases, and Privacy Risks

arxiv url: http://arxiv.org/abs/2502.11163v2
Date: Tue, 20 May 2025 02:49:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 14:49:51.795999
Title: VLMs as GeoGuessr Masters: Exceptional Performance, Hidden Biases, and Privacy Risks
Title（参考訳）: GeoGuessrマスタとしてのVLM - 例外パフォーマンス、隠れバイアス、プライバシリスク
Authors: Jingyuan Huang, Jen-tse Huang, Ziyi Liu, Xiaoyuan Liu, Wenxuan Wang, Jieyu Zhao,
Abstract要約: 詳細な地理メタデータと組み合わせた1200枚の画像からなるベンチマークを導入する。これらのモデルは画像から地理情報を認識する能力を示すが、大きなバイアスを示す。特に、経済的に発達し人口密度の高い地域では、パフォーマンスが著しく高い。
参考スコア（独自算出の注目度）: 44.69950059419091
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual-Language Models (VLMs) have shown remarkable performance across various tasks, particularly in recognizing geographic information from images. However, VLMs still show regional biases in this task. To systematically evaluate these issues, we introduce a benchmark consisting of 1,200 images paired with detailed geographic metadata. Evaluating four VLMs, we find that while these models demonstrate the ability to recognize geographic information from images, achieving up to 53.8% accuracy in city prediction, they exhibit significant biases. Specifically, performance is substantially higher for economically developed and densely populated regions compared to less developed (-12.5%) and sparsely populated (-17.0%) areas. Moreover, regional biases of frequently over-predicting certain locations remain. For instance, they consistently predict Sydney for images taken in Australia, shown by the low entropy scores for these countries. The strong performance of VLMs also raises privacy concerns, particularly for users who share images online without the intent of being identified. Our code and dataset are publicly available at https://github.com/uscnlp-lime/FairLocator.
Abstract（参考訳）: VLM(Visual-Language Models)は、特に画像からの地理情報の認識において、様々なタスクにおいて顕著な性能を示している。しかしながら、VLMは依然としてこの課題の地域的偏見を示している。これらの問題を体系的に評価するために,詳細な地理メタデータと組み合わせた1200枚の画像からなるベンチマークを導入する。 4つのVLMを評価することで、これらのモデルが画像から地理情報を認識できることを示し、都市予測において最大53.8%の精度で達成できることが分かるが、大きなバイアスが現れる。特に、経済発展と人口密度の低い地域(12.5%)と人口密度の低い地域(-17.0%)ではパフォーマンスが著しく高い。さらに、頻繁に過度に予測される場所の地域バイアスも残っている。例えば、オーストラリアで撮影された画像は、これらの国々の低いエントロピースコアによって常にシドニーを予測している。 VLMの強力なパフォーマンスは、特に画像の特定を意図せずにオンラインで共有するユーザに対して、プライバシー上の懸念を提起する。私たちのコードとデータセットはhttps://github.com/uscnlp-lime/FairLocator.comで公開されています。

関連論文リスト

Scaling Image Geo-Localization to Continent Level [48.7766435870634]
本稿では,大陸規模を拡大する大規模地形をまたいだ微粒な地理的局在化を実現するためのハイブリッドアプローチを提案する。我々は、訓練中にプロキシ分類タスクを利用して、正確な位置情報を暗黙的にエンコードするリッチな特徴表現を学習する。我々の評価は,ヨーロッパの大部分をカバーするデータセットのクエリの68%以上を200m以内でローカライズできることを示す。
論文参考訳（メタデータ） (2025-10-30T17:59:35Z)
Where on Earth? A Vision-Language Benchmark for Probing Model Geolocation Skills Across Scales [61.03549470159347]
視覚言語モデル (VLM) は急速に進歩しているが, オープンワールド環境における画像位置決め能力は, 網羅的に評価されていない。我々は、視覚認識、ステップバイステップ推論、エビデンス利用を評価するVLM画像位置情報の総合ベンチマークであるEarthWhereを提示する。
論文参考訳（メタデータ） (2025-10-13T01:12:21Z)
GeoArena: An Open Platform for Benchmarking Large Vision-language Models on WorldWide Image Geolocalization [21.941170274245223]
画像のジオローカライゼーションは、地球上のどこでも撮影された画像の地理的位置を予測することを目的としている。現在の評価手法には2つの大きな制限がある。グローバルな画像位置決めタスク上でLVLMを評価するための,最初のオープンプラットフォームであるGeoArenaを提案する。
論文参考訳（メタデータ） (2025-09-04T15:52:04Z)
Assessing the Geolocation Capabilities, Limitations and Societal Risks of Generative Vision-Language Models [11.444835352261002]
ジオローカライゼーション(Geo-localization)とは、視覚的手がかりだけで画像の位置を特定するタスクである。 VLM(Vision-Language Models)は、正確な画像ジオロケータとして機能する傾向にある。これにより、ストーキングや監視など、プライバシー上の重大なリスクが生じる。
論文参考訳（メタデータ） (2025-08-27T15:21:31Z)
From Pixels to Places: A Systematic Benchmark for Evaluating Image Geolocalization Ability in Large Language Models [14.178064117544082]
画像のジオローカライゼーションは、危機対応、デジタル法医学、位置に基づくインテリジェンスなどの応用において重要である。大規模言語モデル(LLM)の最近の進歩は、視覚的推論の新しい機会を提供する。我々は, 精度, 距離誤差, 地理空間バイアス, 推論過程を体系的に評価する, imageO-Bench というベンチマークを導入する。
論文参考訳（メタデータ） (2025-08-03T06:04:33Z)
Toward Reliable VLM: A Fine-Grained Benchmark and Framework for Exposure, Bias, and Inference in Korean Street Views [3.611742324688716]
我々は韓国のストリートビューのための、初めてきめ細かいマルチモーダルジオロケーションベンチマークであるKoreaGEO Benchを紹介する。我々のデータセットは、4つの都市クラスターと9つの場所タイプでサンプリングされた1,080の高解像度画像からなる。その結果, 局所化精度の変動が明らかになり, 中心都市に対する構造的予測バイアスが強調された。
論文参考訳（メタデータ） (2025-06-03T20:28:55Z)
Evaluating Precise Geolocation Inference Capabilities of Vision Language Models [0.0]
本稿では,Googleストリートビューから収集したベンチマークデータセットについて紹介する。基礎モデルは単一画像の位置推定に基づいて評価され、その多くが300kmの中央値誤差を達成している。さらに,補助具へのアクセスによりVLMの「エージェント」を評価し,最大30.6%の距離誤差を観察した。
論文参考訳（メタデータ） (2025-02-20T09:59:28Z)
GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。私たちのベンチマークでは、手動で検証された命令が1万以上あり、視覚条件、オブジェクトタイプ、スケールのさまざまなバリエーションをカバーしています。地理空間内での精度を評価するために,いくつかの最先端のVLMを評価した。
論文参考訳（メタデータ） (2024-11-28T18:59:56Z)
Image-Based Geolocation Using Large Vision-Language Models [19.071551941682063]
画像に基づく位置情報の精度を大幅に向上する革新的なフレームワークであるToolを紹介した。ツールは体系的なチェーン・オブ・シント(CoT)アプローチを採用し、人間のジオゲスティング戦略を模倣する。 GeoGuessrゲームの平均スコアは4550.5で85.37%で、高精度な位置情報予測を行う。
論文参考訳（メタデータ） (2024-08-18T13:39:43Z)
Granular Privacy Control for Geolocation with Vision Language Models [36.3455665044992]
GPTGeoChatと呼ばれる新しいベンチマークを開発し、ユーザとの位置情報対話を適度に行うビジョン言語モデルの能力をテストする。我々は,室内アノテータとGPT-4v間の1,000の画像位置情報の会話を収集する。位置情報が多すぎるかどうかを判断することで,GPT-4vの位置情報会話を適度に行う様々なVLMの能力を評価する。
論文参考訳（メタデータ） (2024-07-06T04:06:55Z)
Regional biases in image geolocation estimation: a case study with the SenseCity Africa dataset [0.0]
我々は,アフリカ大陸(SCA100)から得られた画像のクラウドソースデータセットに対して,最先端の画像位置推定モデル(ISNs)を適用した。欧米の高所得国では,ISNsモデルでは画像位置を過大に予測する傾向がみられた。この結果から,IM2GPS3kを画像位置情報推定のトレーニングセットおよびベンチマークとして用いると,アフリカにおける潜在的な応用を見落としてしまうことが示唆された。
論文参考訳（メタデータ） (2024-04-03T08:27:24Z)
GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文参考訳（メタデータ） (2023-10-10T00:03:23Z)
GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文参考訳（メタデータ） (2023-09-27T20:54:56Z)
PIGEON: Predicting Image Geolocations [44.99833362998488]
本稿では, セマンティックジオセル生成, マルチタスクコントラスト事前学習, 新たな損失関数を組み合わせた新しいジオローカライズシステムを提案する。 PIGEOTTOは、目に見えない場所に効果的に一般化する最初の画像ジオローカライズモデルである。
論文参考訳（メタデータ） (2023-07-11T23:36:49Z)
Inspecting the Geographical Representativeness of Images from Text-to-Image Models [52.80961012689933]
本研究では,27カ国540人の参加者からなるクラウドソーシング調査を用いて,生成された画像の地理的代表性を測定した。国名のない故意に特定されていない入力に対して、生成された画像は、主にアメリカの周囲を反映しており、その後インドが続く。多くの国でのスコアは依然として低いままで、将来のモデルがより地理的に包括的である必要性を強調している。
論文参考訳（メタデータ） (2023-05-18T16:08:11Z)
GeoNet: Benchmarking Unsupervised Adaptation across Geographies [71.23141626803287]
地理的ロバスト性の問題について検討し、3つの主要な貢献を行う。まず,地理的適応のための大規模データセットGeoNetを紹介する。第2に、シーンコンテキストにおける大きな変化から、ドメインシフトの主な原因が生じるという仮説を立てる。第3に、最先端の教師なしドメイン適応アルゴリズムとアーキテクチャを広範囲に評価する。
論文参考訳（メタデータ） (2023-03-27T17:59:34Z)
Geographic and Geopolitical Biases of Language Models [43.62238334380897]
プレトレーニング言語モデル(PLM)における地理的バイアス(と知識)の研究手法を提案する。以上の結果から, PLMの表現は, 国・国・国間の関連性の観点から, 物理的世界と驚くほどよく一致していることが示唆された。最後に, 地理的近接性の概念を呈するにもかかわらず, PLMがいかに大きいかを説明する。
論文参考訳（メタデータ） (2022-12-20T16:32:54Z)
Broaden the Vision: Geo-Diverse Visual Commonsense Reasoning [49.04866469947569]
地理的・地理的・地理的な共通点を理解する視覚・言語モデルの能力をテストするために,Geo-Diverse Visual Commonsense Reasoning dataset(GD-VCR)を構築した。その結果,東アジア,南アジア,アフリカを含む非西欧地域での両モデルの性能は,西欧地域に比べて著しく低いことがわかった。
論文参考訳（メタデータ） (2021-09-14T17:52:55Z)
PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文参考訳（メタデータ） (2020-11-25T11:03:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。