論文の概要: Toward Reliable VLM: A Fine-Grained Benchmark and Framework for Exposure, Bias, and Inference in Korean Street Views
- arxiv url: http://arxiv.org/abs/2506.03371v1
- Date: Tue, 03 Jun 2025 20:28:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.043673
- Title: Toward Reliable VLM: A Fine-Grained Benchmark and Framework for Exposure, Bias, and Inference in Korean Street Views
- Title(参考訳): 信頼性VLMに向けて:韓国のストリートビューにおける露出・バイアス・推論のための細粒度ベンチマークとフレームワーク
- Authors: Xiaonan Wang, Bo Shao, Hansaem Kim,
- Abstract要約: 我々は韓国のストリートビューのための、初めてきめ細かいマルチモーダルジオロケーションベンチマークであるKoreaGEO Benchを紹介する。
我々のデータセットは、4つの都市クラスターと9つの場所タイプでサンプリングされた1,080の高解像度画像からなる。
その結果, 局所化精度の変動が明らかになり, 中心都市に対する構造的予測バイアスが強調された。
- 参考スコア(独自算出の注目度): 3.611742324688716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in vision-language models (VLMs) have enabled accurate image-based geolocation, raising serious concerns about location privacy risks in everyday social media posts. However, current benchmarks remain coarse-grained, linguistically biased, and lack multimodal and privacy-aware evaluations. To address these gaps, we present KoreaGEO Bench, the first fine-grained, multimodal geolocation benchmark for Korean street views. Our dataset comprises 1,080 high-resolution images sampled across four urban clusters and nine place types, enriched with multi-contextual annotations and two styles of Korean captions simulating real-world privacy exposure. We introduce a three-path evaluation protocol to assess ten mainstream VLMs under varying input modalities and analyze their accuracy, spatial bias, and reasoning behavior. Results reveal modality-driven shifts in localization precision and highlight structural prediction biases toward core cities.
- Abstract(参考訳): 視覚言語モデル(VLM)の最近の進歩により、画像に基づく正確な位置決めが可能となり、日常的なソーシャルメディア投稿における位置プライバシーのリスクに対する深刻な懸念が高まっている。
しかし、現在のベンチマークは、粗大で言語的に偏りがあり、マルチモーダルとプライバシを意識した評価が欠けているままである。
これらのギャップに対処するために、韓国のストリートビューのための、初めてきめ細かいマルチモーダルジオロケーションベンチマークであるKoreaGEO Benchを紹介します。
我々のデータセットは、4つの都市クラスターと9つの場所タイプでサンプリングされた1,080の高解像度画像からなり、マルチコンテキストアノテーションと2種類の韓国キャプションが実世界のプライバシー暴露をシミュレートしている。
入力モードの異なる10個の主流VLMを評価するための3パス評価プロトコルを導入し,その精度,空間バイアス,推論の振る舞いを解析する。
その結果, 局所化精度の変動が明らかになり, 中心都市に対する構造的予測バイアスが強調された。
関連論文リスト
- GeoRanker: Distance-Aware Ranking for Worldwide Image Geolocalization [30.983556433953076]
画像ジオローカライズのための距離対応ランキングフレームワークGeoRankerを提案する。
絶対距離と相対距離の両方をランク付けする多階距離損失を導入し、構造的空間関係をモデル化する。
GeoRankerは、2つの確立されたベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-05-19T21:04:46Z) - VLMs as GeoGuessr Masters: Exceptional Performance, Hidden Biases, and Privacy Risks [44.69950059419091]
詳細な地理メタデータと組み合わせた1200枚の画像からなるベンチマークを導入する。
これらのモデルは画像から地理情報を認識する能力を示すが、大きなバイアスを示す。
特に、経済的に発達し人口密度の高い地域では、パフォーマンスが著しく高い。
論文 参考訳(メタデータ) (2025-02-16T15:28:34Z) - Around the World in 80 Timesteps: A Generative Approach to Global Visual Geolocation [19.028122299569052]
地球上の視覚的位置は、画像が地球上でどこで撮影されたかを予測する。
本稿では,従来の地理的局在化と近代的生成手法のギャップを埋めることを目的としている。
本モデルは,3つの視覚的位置決めベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-09T18:59:04Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - CurriculumLoc: Enhancing Cross-Domain Geolocalization through
Multi-Stage Refinement [11.108860387261508]
ビジュアルジオローカライゼーションはコスト効率が高くスケーラブルなタスクであり、未知の場所で撮影された1つ以上のクエリイメージとジオタグ付き参照イメージのセットをマッチングする。
我々は,グローバルな意味認識と局所的幾何学的検証を備えたキーポイント検出と記述法であるCurriculumLocを開発した。
我々は、ALTOで62.6%と94.5%の新しいハイリコール@1スコアをそれぞれ2つの異なる距離で達成した。
論文 参考訳(メタデータ) (2023-11-20T08:40:01Z) - Global-Local Context Network for Person Search [125.51080862575326]
パーソンサーチは、自然に切り刻まれた画像からクエリーを共同でローカライズし、識別することを目的としている。
我々は,対象人物を取り巻く環境情報を多様かつ局所的に利用し,それぞれがシーンとグループコンテキストを参照する。
本稿では,機能強化を目的としたグローバル・ローカル・コンテキスト・ネットワーク(GLCNet)を提案する。
論文 参考訳(メタデータ) (2021-12-05T07:38:53Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z) - Each Part Matters: Local Patterns Facilitate Cross-view Geo-localization [54.00111565818903]
クロスビューなジオローカライゼーションは、異なるプラットフォームから同じ地理的ターゲットの画像を見つけることである。
既存の手法は通常、画像センター内の地理的ターゲットの微細な特徴をマイニングすることに集中している。
我々は、文脈情報を活用するために、ローカルパターンネットワーク(LPN)と呼ばれるシンプルで効果的なディープニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-08-26T16:06:11Z) - Predicting Livelihood Indicators from Community-Generated Street-Level
Imagery [70.5081240396352]
本稿では,クラウドソースによるストリートレベルの画像から重要な生活指標を予測するための,安価でスケーラブルで解釈可能なアプローチを提案する。
全国的に代表される世帯調査で収集した地上データと比較することにより,貧困,人口,健康の指標を正確に予測する上でのアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2020-06-15T18:12:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。