論文の概要: Benchmarking Large Language Models for Geolocating Colonial Virginia Land Grants
- arxiv url: http://arxiv.org/abs/2508.08266v1
- Date: Sun, 27 Jul 2025 21:49:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-17 22:58:06.150092
- Title: Benchmarking Large Language Models for Geolocating Colonial Virginia Land Grants
- Title(参考訳): コロニアルバージニア土地の地理化のための大規模言語モデルのベンチマーク
- Authors: Ryan Mioduski,
- Abstract要約: バージニアの17世紀から18世紀の土地特許は、主に物語のメッツ・アンド・バウンドの記述として残っている。
本研究では、これらの散文を地理的に正確な緯度・経度座標に変換する際に、現在世代の大言語モデル(LLM)を体系的に評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Virginia's seventeenth- and eighteenth-century land patents survive primarily as narrative metes-and-bounds descriptions, limiting spatial analysis. This study systematically evaluates current-generation large language models (LLMs) in converting these prose abstracts into geographically accurate latitude/longitude coordinates within a focused evaluation context. A digitized corpus of 5,471 Virginia patent abstracts (1695-1732) is released, with 43 rigorously verified test cases serving as an initial, geographically focused benchmark. Six OpenAI models across three architectures (o-series, GPT-4-class, and GPT-3.5) were tested under two paradigms: direct-to-coordinate and tool-augmented chain-of-thought invoking external geocoding APIs. Results were compared with a GIS-analyst baseline, the Stanford NER geoparser, Mordecai-3, and a county-centroid heuristic. The top single-call model, o3-2025-04-16, achieved a mean error of 23 km (median 14 km), outperforming the median LLM (37.4 km) by 37.5%, the weakest LLM (50.3 km) by 53.5%, and external baselines by 67% (GIS analyst) and 70% (Stanford NER). A five-call ensemble further reduced errors to 19 km (median 12 km) at minimal additional cost (approx. USD 0.20 per grant), outperforming the median LLM by 48.6%. A patentee-name-redaction ablation increased error by about 9%, indicating reliance on textual landmark and adjacency descriptions rather than memorization. The cost-efficient gpt-4o-2024-08-06 model maintained a 28 km mean error at USD 1.09 per 1,000 grants, establishing a strong cost-accuracy benchmark; external geocoding tools offered no measurable benefit in this evaluation. These findings demonstrate the potential of LLMs for scalable, accurate, and cost-effective historical georeferencing.
- Abstract(参考訳): バージニア州の17世紀から18世紀にかけての土地特許は、主に物語のミート・アンド・バウンドの説明として存続し、空間分析を制限している。
本研究では,これらの散文を地理的に正確な緯度・経度座標に変換する際に,現在の大言語モデル (LLM) を集中評価文脈内で体系的に評価する。
5,471のバージニア特許抽象化のデジタルコーパス(1695-1732)がリリースされ、43の厳密に検証されたテストケースが初期的、地理的に焦点を絞ったベンチマークとして機能している。
3つのアーキテクチャ(oシリーズ、GPT-4クラス、GPT-3.5)にわたる6つのOpenAIモデルを、2つのパラダイムでテストした。
その結果、GIS分析系ベースライン、スタンフォードNERジオパーサー、モルデカイ-3、および郡中心のヒューリスティックと比較された。
最上位のシングルコールモデルであるo3-2025-04-16は平均誤差23 km (median 14 km)、中央値LLM (37.4 km) の37.5%、最も弱いLLM (50.3 km) の53.5%、外部ベースラインの67% (GISアナリスト) と70% (Stanford NER) を上回った。
5発のアンサンブルにより、最小追加コストで19 km (median 12 km) の誤差が減少し、中央値のLLMを48.6%上回った。
特許出願人のリアクション・アブレーションはエラーを約9%増加させ、暗記よりもテキストのランドマークと隣接性の記述に依存することを示した。
コスト効率のよいgpt-4o-2024-08-06モデルでは、1,000の補助金に対して平均28kmの誤差がUSD 1.09で維持され、強力なコスト精度のベンチマークが確立された。
これらの結果は,拡張性,正確性,費用対効果を有する歴史的ジオレファレンスにおけるLCMsの可能性を示している。
関連論文リスト
- UrbanScore: A Real-Time Personalised Liveability Analytics Platform [0.0]
UrbanScoreはリアルタイムのWebプラットフォームで、都市アドレスの個人化された生存率スコアを計算する。
System は5つのデータストリームを融合している: Nominatimによるアドレスジオコーディング、(ii)OpenStreetMapからOverpass QLを通じて抽出する機能、(iii)TomTom Flow v10からのセグメントレベルのトラフィックメトリクス、(iv)OpenWeatherMapからの時間単位の空気品質の読み取り、(v)ユーザ定義の好みプロファイル。
論文 参考訳(メタデータ) (2025-07-16T08:53:11Z) - The World As Large Language Models See It: Exploring the reliability of LLMs in representing geographical features [0.0]
本研究では, GPT-4o と Gemini 2.0 Flash の3つの地理空間的タスク(ジオコーディング, 標高推定, 逆ジオコーディング)における性能評価を行った。
どちらのモデルもオーストリアの連邦国家の正確な再構築を達成せず、永続的な誤分類を強調した。
論文 参考訳(メタデータ) (2025-05-30T20:14:17Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models [7.422346909538787]
MapEvalは、3つの異なるタスクにわたる基礎モデルを評価するために設計されたベンチマークである。
空間的関係、ナビゲーション、旅行計画、現実世界の地図の相互作用をカバーしている。
ロングコンテキスト推論、APIインタラクション、ビジュアルマップ分析を扱うモデルが必要です。
論文 参考訳(メタデータ) (2024-12-31T07:20:32Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Distortions in Judged Spatial Relations in Large Language Models [45.875801135769585]
GPT-4は55%の精度で優れた性能を示し、GPT-3.5は47%、Llama-2は45%であった。
モデルは、ほとんどの場合において最も近い基数方向を同定し、その連想学習機構を反映した。
論文 参考訳(メタデータ) (2024-01-08T20:08:04Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。