論文の概要: GeoChain: Multimodal Chain-of-Thought for Geographic Reasoning
- arxiv url: http://arxiv.org/abs/2506.00785v1
- Date: Sun, 01 Jun 2025 02:24:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.588144
- Title: GeoChain: Multimodal Chain-of-Thought for Geographic Reasoning
- Title(参考訳): GeoChain: 地理的推論のためのマルチモーダルチェーン
- Authors: Sahiti Yerramilli, Nilay Pande, Rynaa Grover, Jayant Sravan Tamarapalli,
- Abstract要約: GeoChainはマルチモーダル大言語モデル(MLLM)におけるステップバイステップの地理的推論を評価するためのベンチマークである
それぞれの画像を21ステップのチェーン・オブ・シークレット(CoT)質問シーケンス(3000万以上のQ&Aペア)とペアリングする。
これらのシーケンスは、粗い属性から4つの推論カテゴリにわたるきめ細かい局所化までモデルを導く。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces GeoChain, a large-scale benchmark for evaluating step-by-step geographic reasoning in multimodal large language models (MLLMs). Leveraging 1.46 million Mapillary street-level images, GeoChain pairs each image with a 21-step chain-of-thought (CoT) question sequence (over 30 million Q&A pairs). These sequences guide models from coarse attributes to fine-grained localization across four reasoning categories - visual, spatial, cultural, and precise geolocation - annotated by difficulty. Images are also enriched with semantic segmentation (150 classes) and a visual locatability score. Our benchmarking of contemporary MLLMs (GPT-4.1 variants, Claude 3.7, Gemini 2.5 variants) on a diverse 2,088-image subset reveals consistent challenges: models frequently exhibit weaknesses in visual grounding, display erratic reasoning, and struggle to achieve accurate localization, especially as the reasoning complexity escalates. GeoChain offers a robust diagnostic methodology, critical for fostering significant advancements in complex geographic reasoning within MLLMs.
- Abstract(参考訳): 本稿では,マルチモーダル大言語モデル (MLLM) におけるステップバイステップの地理的推論を評価するための大規模ベンチマークであるGeoChainを紹介する。
166万枚のMapillaryストリートレベルの画像を利用して、GeoChainは各画像を21ステップのチェーン・オブ・シークレット(CoT)質問シーケンス(3000万以上のQ&Aペア)でペアリングする。
これらのシーケンスは、粗い属性から、4つの推論カテゴリ(視覚、空間、文化、正確な位置決め)にまたがるきめ細かな局所化までのモデルを導く。
画像にはセマンティックセグメンテーション(150のクラス)と視覚的ロカタビリティスコアが組み込まれている。
現代のMLLM(GPT-4.1 variants, Claude 3.7, Gemini 2.5 variants)の2,088-image サブセットでのベンチマークでは、一貫した課題が示されている。
GeoChainは堅牢な診断手法を提供しており、MLLM内の複雑な地理的推論の大幅な進歩を促進するために重要である。
関連論文リスト
- GeoLocSFT: Efficient Visual Geolocation via Supervised Fine-Tuning of Multimodal Foundation Models [4.956977275061966]
GeoLocSFTは、地理的に多様なMR600kデータセットから慎重に選択されたイメージ-GPSペアでトレーニングされています。
この制限されたデータにもかかわらず、私たちのSFT中心のアプローチはベースラインモデルを大幅に改善します。
本研究は,惑星規模の画像測位における高品質の監督と効率的なSFTの能力を明らかにするものである。
論文 参考訳(メタデータ) (2025-06-02T03:16:19Z) - GeoRanker: Distance-Aware Ranking for Worldwide Image Geolocalization [30.983556433953076]
画像ジオローカライズのための距離対応ランキングフレームワークGeoRankerを提案する。
絶対距離と相対距離の両方をランク付けする多階距離損失を導入し、構造的空間関係をモデル化する。
GeoRankerは、2つの確立されたベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-05-19T21:04:46Z) - Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。
大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。
また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文 参考訳(メタデータ) (2025-02-19T14:21:25Z) - MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models [7.422346909538787]
地理空間的推論を用いて,多種多様かつ複雑なマップベースのユーザクエリを評価するためのベンチマークであるMapEvalを紹介する。
MapEvalは、180の都市と54の国にまたがる場所に関する700の独特な複数の質問で構成されている。
我々の詳細な分析は、現在のモデルの長所と短所に関する洞察を提供するが、すべてのモデルは、平均して20%以上の人的性能に欠ける。
このギャップは、地理的空間的理解を強くした汎用基盤モデルの推進におけるMapEvalの重要な役割を強調している。
論文 参考訳(メタデータ) (2024-12-31T07:20:32Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - G3: An Effective and Adaptive Framework for Worldwide Geolocalization Using Large Multi-Modality Models [40.69217368870192]
我々は、レトリーバル拡張世代(RAG)に基づく世界規模の地理的ローカライゼーションのための新しい枠組みを提案する。
G3は、ジオアライメント、ジオディバーシフィケーション、ジオビジュアライゼーションの3つのステップから構成される。
2つの確立されたデータセットの実験は、他の最先端手法と比較してG3の優位性を検証する。
論文 参考訳(メタデータ) (2024-05-23T15:37:06Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。
オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。
我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (2023-05-11T03:21:56Z) - GeoNet: Benchmarking Unsupervised Adaptation across Geographies [71.23141626803287]
地理的ロバスト性の問題について検討し、3つの主要な貢献を行う。
まず,地理的適応のための大規模データセットGeoNetを紹介する。
第2に、シーンコンテキストにおける大きな変化から、ドメインシフトの主な原因が生じるという仮説を立てる。
第3に、最先端の教師なしドメイン適応アルゴリズムとアーキテクチャを広範囲に評価する。
論文 参考訳(メタデータ) (2023-03-27T17:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。