論文の概要: The World As Large Language Models See It: Exploring the reliability of LLMs in representing geographical features
- arxiv url: http://arxiv.org/abs/2506.00203v1
- Date: Fri, 30 May 2025 20:14:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.500883
- Title: The World As Large Language Models See It: Exploring the reliability of LLMs in representing geographical features
- Title(参考訳): 大規模言語モデルから見た世界 : 地理的特徴を表すLLMの信頼性を探る
- Authors: Omid Reza Abbasi, Franz Welscher, Georg Weinberger, Johannes Scholz,
- Abstract要約: 本研究では, GPT-4o と Gemini 2.0 Flash の3つの地理空間的タスク(ジオコーディング, 標高推定, 逆ジオコーディング)における性能評価を行った。
どちらのモデルもオーストリアの連邦国家の正確な再構築を達成せず、永続的な誤分類を強調した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As large language models (LLMs) continue to evolve, questions about their trustworthiness in delivering factual information have become increasingly important. This concern also applies to their ability to accurately represent the geographic world. With recent advancements in this field, it is relevant to consider whether and to what extent LLMs' representations of the geographical world can be trusted. This study evaluates the performance of GPT-4o and Gemini 2.0 Flash in three key geospatial tasks: geocoding, elevation estimation, and reverse geocoding. In the geocoding task, both models exhibited systematic and random errors in estimating the coordinates of St. Anne's Column in Innsbruck, Austria, with GPT-4o showing greater deviations and Gemini 2.0 Flash demonstrating more precision but a significant systematic offset. For elevation estimation, both models tended to underestimate elevations across Austria, though they captured overall topographical trends, and Gemini 2.0 Flash performed better in eastern regions. The reverse geocoding task, which involved identifying Austrian federal states from coordinates, revealed that Gemini 2.0 Flash outperformed GPT-4o in overall accuracy and F1-scores, demonstrating better consistency across regions. Despite these findings, neither model achieved an accurate reconstruction of Austria's federal states, highlighting persistent misclassifications. The study concludes that while LLMs can approximate geographic information, their accuracy and reliability are inconsistent, underscoring the need for fine-tuning with geographical information to enhance their utility in GIScience and Geoinformatics.
- Abstract(参考訳): 大規模言語モデル(LLM)が進化を続けるにつれ、事実情報の提供における信頼性に関する疑問がますます重要になっている。
この懸念は、地理的世界を正確に表現する能力にも当てはまる。
近年のこの分野の発展に伴い,LLMの地理的世界表現がどの程度信頼されるかを検討することが重要である。
本研究では, GPT-4o と Gemini 2.0 Flash の3つの地理空間的タスク(ジオコーディング, 標高推定, 逆ジオコーディング)における性能評価を行った。
ジオコーディングタスクでは、どちらのモデルもオーストリアのインスブルックにあるセント・アンズ・コロンの座標を推定する際の体系的およびランダムな誤差を示し、GPT-4oはより偏差を示し、Gemini 2.0 Flashはより正確だが重要な体系的なオフセットを示した。
標高推定では、どちらのモデルもオーストリア全土の標高を過小評価する傾向にあったが、全体の地形的傾向は捉えられ、ジェミニ2.0フラッシュは東部地域では良くなった。
逆ジオコーディングタスクは、座標からオーストリアの連邦国家を特定することを含み、Gemini 2.0 Flashが全体的な精度とF1スコアでGPT-4oより優れており、地域間での一貫性が向上したことを示した。
これらの発見にもかかわらず、どちらのモデルもオーストリアの連邦国家の正確な再構築を達成し、永続的な誤分類を強調した。
この研究は、LLMは地理的情報を近似できるが、その正確さと信頼性は矛盾しており、GIScienceとGeoinformaticsにおける有用性を高めるために、地理情報との微調整の必要性を浮き彫りにしている。
関連論文リスト
- Performance and Generalizability Impacts of Incorporating Geolocation into Deep Learning for Dynamic PM2.5 Estimation [1.278093617645299]
我々は、最近発表されたディープラーニングに基づくPM2.5推定モデルに基づいて、アメリカ大陸で観測されたデータに対する最先端のパフォーマンスを実現する。
位置情報をベースラインとして除外する3つの手法について検討し, 生の地理座標を用いて, 事前学習した位置情報エンコーダを活用する。
論文 参考訳(メタデータ) (2025-05-24T02:00:34Z) - EarthMapper: Visual Autoregressive Models for Controllable Bidirectional Satellite-Map Translation [50.433911327489554]
制御可能な衛星マップ翻訳のための新しいフレームワークであるEarthMapperを紹介する。
また,中国38都市を対象とした302,132組の衛星マップからなる大規模データセットであるCNSatMapをコントリビュートした。
CNSatMapとNew Yorkデータセットの実験は、EarthMapperの優れたパフォーマンスを実証している。
論文 参考訳(メタデータ) (2025-04-28T02:41:12Z) - MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models [7.422346909538787]
地理空間的推論を用いて,多種多様かつ複雑なマップベースのユーザクエリを評価するためのベンチマークであるMapEvalを紹介する。
MapEvalは、180の都市と54の国にまたがる場所に関する700の独特な複数の質問で構成されている。
我々の詳細な分析は、現在のモデルの長所と短所に関する洞察を提供するが、すべてのモデルは、平均して20%以上の人的性能に欠ける。
このギャップは、地理的空間的理解を強くした汎用基盤モデルの推進におけるMapEvalの重要な役割を強調している。
論文 参考訳(メタデータ) (2024-12-31T07:20:32Z) - Measuring Geographic Diversity of Foundation Models with a Natural Language--based Geo-guessing Experiment on GPT-4 [5.534517268996598]
我々は,その地理的多様性を研究するために,多モーダル大言語モデルファミリーの最先端の代表である GPT-4 について検討した。
自然言語によるジオゲスティング実験では,DBpedia の抽象表現を基礎構造コーパスとして用いて,GPT-4 が現在,いくつかの地理的特徴型について不十分な知識をコード化している可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-11T09:59:21Z) - Global-Liar: Factuality of LLMs over Time and Geographic Regions [3.715487408753612]
本研究は, GPT-3.5 や GPT-4 を含む広く採用されている GPT モデルにおける実測精度, 安定性, バイアスを評価する。
地理的および時間的表現の観点から一意にバランスのとれたデータセットである「Global-Liar」を導入する。
論文 参考訳(メタデータ) (2024-01-31T13:57:24Z) - Distortions in Judged Spatial Relations in Large Language Models [45.875801135769585]
GPT-4は55%の精度で優れた性能を示し、GPT-3.5は47%、Llama-2は45%であった。
モデルは、ほとんどの場合において最も近い基数方向を同定し、その連想学習機構を反映した。
論文 参考訳(メタデータ) (2024-01-08T20:08:04Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z) - Geo-Encoder: A Chunk-Argument Bi-Encoder Framework for Chinese
Geographic Re-Ranking [61.60169764507917]
中国の地理的再ランクタスクは、検索された候補者の中で最も関連性の高い住所を見つけることを目的としている。
そこで我々は,中国語の地理的意味論をより効果的に統合する,革新的なフレームワークであるGeo-Encoderを提案する。
論文 参考訳(メタデータ) (2023-09-04T13:44:50Z) - GeoNet: Benchmarking Unsupervised Adaptation across Geographies [71.23141626803287]
地理的ロバスト性の問題について検討し、3つの主要な貢献を行う。
まず,地理的適応のための大規模データセットGeoNetを紹介する。
第2に、シーンコンテキストにおける大きな変化から、ドメインシフトの主な原因が生じるという仮説を立てる。
第3に、最先端の教師なしドメイン適応アルゴリズムとアーキテクチャを広範囲に評価する。
論文 参考訳(メタデータ) (2023-03-27T17:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。