論文の概要: GeoArena: An Open Platform for Benchmarking Large Vision-language Models on WorldWide Image Geolocalization
- arxiv url: http://arxiv.org/abs/2509.04334v2
- Date: Fri, 05 Sep 2025 15:02:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 12:28:42.604143
- Title: GeoArena: An Open Platform for Benchmarking Large Vision-language Models on WorldWide Image Geolocalization
- Title(参考訳): GeoArena: WorldWideイメージのジオローカライゼーションによる大規模視覚言語モデルのベンチマークのためのオープンプラットフォーム
- Authors: Pengyue Jia, Yingyi Zhang, Xiangyu Zhao, Yixuan Li,
- Abstract要約: 画像のジオローカライゼーションは、地球上のどこでも撮影された画像の地理的位置を予測することを目的としている。
現在の評価手法には2つの大きな制限がある。
グローバルな画像位置決めタスク上でLVLMを評価するための,最初のオープンプラットフォームであるGeoArenaを提案する。
- 参考スコア(独自算出の注目度): 32.342417136518286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image geolocalization aims to predict the geographic location of images captured anywhere on Earth, but its global nature presents significant challenges. Current evaluation methodologies suffer from two major limitations. First, data leakage: advanced approaches often rely on large vision-language models (LVLMs) to predict image locations, yet these models are frequently pretrained on the test datasets, compromising the accuracy of evaluating a model's actual geolocalization capability. Second, existing metrics primarily rely on exact geographic coordinates to assess predictions, which not only neglects the reasoning process but also raises privacy concerns when user-level location data is required. To address these issues, we propose GeoArena, a first open platform for evaluating LVLMs on worldwide image geolocalization tasks, offering true in-the-wild and human-centered benchmarking. GeoArena enables users to upload in-the-wild images for a more diverse evaluation corpus, and it leverages pairwise human judgments to determine which model output better aligns with human expectations. Our platform has been deployed online for two months, during which we collected over thousands voting records. Based on this data, we conduct a detailed analysis and establish a leaderboard of different LVLMs on the image geolocalization task.
- Abstract(参考訳): 画像のジオローカライゼーションは、地球上のどこでも撮影された画像の地理的な位置を予測することを目的としている。
現在の評価手法には2つの大きな制限がある。
第一に、データリーク: 高度なアプローチは、画像位置を予測するために大きな視覚言語モデル(LVLM)に依存することが多いが、これらのモデルはテストデータセットで事前訓練され、モデルの実際の位置決め能力を評価する精度が向上する。
第二に、既存のメトリクスは主に正確な座標に基づいて予測を評価する。これは推論プロセスを無視しているだけでなく、ユーザーレベルの位置情報が必要な場合のプライバシー上の懸念も引き起こす。
これらの課題に対処するため,我々はGeoArenaを提案する。GeoArenaは,世界規模の画像ローカライゼーションタスク上でLVLMを評価するための,最初のオープンプラットフォームである。
GeoArenaは、ユーザーがより多様な評価コーパスのために、内蔵画像のアップロードを可能にする。
当社のプラットフォームは2ヶ月にわたってオンラインにデプロイされ、その間に数千件の投票記録を収集しました。
このデータに基づいて詳細な解析を行い、画像ジオローカライゼーションタスクに基づいて異なるLVLMのリーダーボードを確立する。
関連論文リスト
- GeoRanker: Distance-Aware Ranking for Worldwide Image Geolocalization [30.983556433953076]
画像ジオローカライズのための距離対応ランキングフレームワークGeoRankerを提案する。
絶対距離と相対距離の両方をランク付けする多階距離損失を導入し、構造的空間関係をモデル化する。
GeoRankerは、2つの確立されたベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-05-19T21:04:46Z) - Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。
大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。
また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文 参考訳(メタデータ) (2025-02-19T14:21:25Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - PIGEON: Predicting Image Geolocations [44.99833362998488]
本稿では, セマンティックジオセル生成, マルチタスクコントラスト事前学習, 新たな損失関数を組み合わせた新しいジオローカライズシステムを提案する。
PIGEOTTOは、目に見えない場所に効果的に一般化する最初の画像ジオローカライズモデルである。
論文 参考訳(メタデータ) (2023-07-11T23:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。