論文の概要: Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework
- arxiv url: http://arxiv.org/abs/2502.13759v1
- Date: Wed, 19 Feb 2025 14:21:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:59:47.224402
- Title: Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework
- Title(参考訳): リアルヒューマンゲームプレイデータを用いたジオロケーション:大規模データセットとヒューマンライクな推論フレームワーク
- Authors: Zirui Song, Jingpu Yang, Yuan Huang, Jonathan Tonglet, Zeyu Zhang, Tao Cheng, Meng Fang, Iryna Gurevych, Xiuying Chen,
- Abstract要約: 3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。
大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。
また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
- 参考スコア(独自算出の注目度): 59.42946541163632
- License:
- Abstract: Geolocation, the task of identifying an image's location, requires complex reasoning and is crucial for navigation, monitoring, and cultural preservation. However, current methods often produce coarse, imprecise, and non-interpretable localization. A major challenge lies in the quality and scale of existing geolocation datasets. These datasets are typically small-scale and automatically constructed, leading to noisy data and inconsistent task difficulty, with images that either reveal answers too easily or lack sufficient clues for reliable inference. To address these challenges, we introduce a comprehensive geolocation framework with three key components: GeoComp, a large-scale dataset; GeoCoT, a novel reasoning method; and GeoEval, an evaluation metric, collectively designed to address critical challenges and drive advancements in geolocation research. At the core of this framework is GeoComp (Geolocation Competition Dataset), a large-scale dataset collected from a geolocation game platform involving 740K users over two years. It comprises 25 million entries of metadata and 3 million geo-tagged locations spanning much of the globe, with each location annotated thousands to tens of thousands of times by human users. The dataset offers diverse difficulty levels for detailed analysis and highlights key gaps in current models. Building on this dataset, we propose Geographical Chain-of-Thought (GeoCoT), a novel multi-step reasoning framework designed to enhance the reasoning capabilities of Large Vision Models (LVMs) in geolocation tasks. GeoCoT improves performance by integrating contextual and spatial cues through a multi-step process that mimics human geolocation reasoning. Finally, using the GeoEval metric, we demonstrate that GeoCoT significantly boosts geolocation accuracy by up to 25% while enhancing interpretability.
- Abstract(参考訳): 画像の位置を識別するタスクであるジオロケーションは複雑な推論を必要とし、ナビゲーション、監視、文化保存に不可欠である。
しかし、現在の手法はしばしば粗い、不正確で非解釈可能なローカライゼーションを生成する。
大きな課題は、既存の位置情報データセットの品質とスケールである。
これらのデータセットは通常、小規模で自動で構築され、ノイズの多いデータや一貫性のないタスクの難しさにつながる。
これらの課題に対処するために,大規模なデータセットであるGeoComp,新しい推論手法であるGeoCoT,重要な課題に対処し,位置情報研究の進歩を促進するために総合的に設計された評価指標であるGeoEvalの3つの重要なコンポーネントを備えた総合的な位置情報フレームワークを導入する。
このフレームワークのコアとなるGeoComp(Geolocation Competition Dataset)は、ジオロケーションゲームプラットフォームから収集された大規模なデータセットで、2年間で740万のユーザが参加している。
メタデータの2500万のエントリと、地球の大部分に散在する300万のジオタグ付きロケーションで構成されている。
このデータセットは、詳細な分析のためのさまざまな難易度を提供し、現在のモデルにおける重要なギャップを強調している。
このデータセットに基づいて、位置情報タスクにおけるLVM(Large Vision Models)の推論能力を高めるために設計された、新しい多段階推論フレームワークGeoCoTを提案する。
GeoCoTは、人間の位置情報推論を模倣する多段階プロセスを通じて、コンテキストと空間のキューを統合することで、パフォーマンスを向上させる。
最後に、GeoEval測定値を用いて、GeoCoTは、解釈可能性を高めながら、位置情報の精度を最大25%向上することを示した。
関連論文リスト
- Image-Based Geolocation Using Large Vision-Language Models [19.071551941682063]
画像に基づく位置情報の精度を大幅に向上する革新的なフレームワークであるToolを紹介した。
ツールは体系的なチェーン・オブ・シント(CoT)アプローチを採用し、人間のジオゲスティング戦略を模倣する。
GeoGuessrゲームの平均スコアは4550.5で85.37%で、高精度な位置情報予測を行う。
論文 参考訳(メタデータ) (2024-08-18T13:39:43Z) - G3: An Effective and Adaptive Framework for Worldwide Geolocalization Using Large Multi-Modality Models [40.69217368870192]
我々は、レトリーバル拡張世代(RAG)に基づく世界規模の地理的ローカライゼーションのための新しい枠組みを提案する。
G3は、ジオアライメント、ジオディバーシフィケーション、ジオビジュアライゼーションの3つのステップから構成される。
2つの確立されたデータセットの実験は、他の最先端手法と比較してG3の優位性を検証する。
論文 参考訳(メタデータ) (2024-05-23T15:37:06Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - Geo-Encoder: A Chunk-Argument Bi-Encoder Framework for Chinese
Geographic Re-Ranking [61.60169764507917]
中国の地理的再ランクタスクは、検索された候補者の中で最も関連性の高い住所を見つけることを目的としている。
そこで我々は,中国語の地理的意味論をより効果的に統合する,革新的なフレームワークであるGeo-Encoderを提案する。
論文 参考訳(メタデータ) (2023-09-04T13:44:50Z) - GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。
オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。
我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (2023-05-11T03:21:56Z) - GeoNet: Benchmarking Unsupervised Adaptation across Geographies [71.23141626803287]
地理的ロバスト性の問題について検討し、3つの主要な貢献を行う。
まず,地理的適応のための大規模データセットGeoNetを紹介する。
第2に、シーンコンテキストにおける大きな変化から、ドメインシフトの主な原因が生じるという仮説を立てる。
第3に、最先端の教師なしドメイン適応アルゴリズムとアーキテクチャを広範囲に評価する。
論文 参考訳(メタデータ) (2023-03-27T17:59:34Z) - A General Purpose Neural Architecture for Geospatial Systems [142.43454584836812]
本稿では,空間的帰納バイアスを持つ汎用ニューラルアーキテクチャ(GPNA)の構築に向けたロードマップを示す。
このようなモデルがコミュニティのメンバー間の協力をいかに促進するかを考察する。
論文 参考訳(メタデータ) (2022-11-04T09:58:57Z) - Are We There Yet? Evaluating State-of-the-Art Neural Network based
Geoparsers Using EUPEG as a Benchmarking Platform [2.8935588665357077]
2019年6月、ジオパーシングコンペティション「Toponym Resolution in Scientific Papers」が開催された。
優勝チームは、優れたパフォーマンスを達成するニューラルネットワークベースのジオパーサーを開発した。
本研究は、最近開発されたベンチマークプラットフォームEUPEGを用いて、これらの最先端ジオパーサの体系的評価を行う。
論文 参考訳(メタデータ) (2020-07-15T03:13:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。