論文の概要: Georeferencing complex relative locality descriptions with large language models
- arxiv url: http://arxiv.org/abs/2512.14228v1
- Date: Tue, 16 Dec 2025 09:27:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.659964
- Title: Georeferencing complex relative locality descriptions with large language models
- Title(参考訳): ジオレファレンス複素局所性記述と大規模言語モデル
- Authors: Aneesha Fernando, Surangika Ranathunga, Kristin Stock, Raj Prasanna, Christopher B. Jones,
- Abstract要約: 本稿では,局所性記述を自動的にジオレファレンスする大規模言語モデルの可能性について検討する。
最初に有効なプロンプトパターンを特定し,生物多様性データセット上での量子化低ランク適応(QLoRA)を用いてLLMを微調整した。
われわれのアプローチは、データセットを平均して、半径10km以内のレコードの65%を一定のトレーニングデータとして、既存のベースラインを上回っている。
- 参考スコア(独自算出の注目度): 1.9911463513783276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Georeferencing text documents has typically relied on either gazetteer-based methods to assign geographic coordinates to place names, or on language modelling approaches that associate textual terms with geographic locations. However, many location descriptions specify positions relatively with spatial relationships, making geocoding based solely on place names or geo-indicative words inaccurate. This issue frequently arises in biological specimen collection records, where locations are often described through narratives rather than coordinates if they pre-date GPS. Accurate georeferencing is vital for biodiversity studies, yet the process remains labour-intensive, leading to a demand for automated georeferencing solutions. This paper explores the potential of Large Language Models (LLMs) to georeference complex locality descriptions automatically, focusing on the biodiversity collections domain. We first identified effective prompting patterns, then fine-tuned an LLM using Quantized Low-Rank Adaptation (QLoRA) on biodiversity datasets from multiple regions and languages. Our approach outperforms existing baselines with an average, across datasets, of 65% of records within a 10 km radius, for a fixed amount of training data. The best results (New York state) were 85% within 10km and 67% within 1km. The selected LLM performs well for lengthy, complex descriptions, highlighting its potential for georeferencing intricate locality descriptions.
- Abstract(参考訳): ジオレファレンステキスト文書は通常、地名の配置に位置情報を割り当てるガゼッタベースの手法や、テキスト用語と地理的な位置を関連付ける言語モデリングアプローチに依存する。
しかし、位置記述の多くは相対的に空間的関係を持つ位置を規定しており、地名や地理的指示語のみに基づくジオコーディングは不正確である。
この問題は、生物標本収集記録にしばしば現れ、GPSに先立って位置を座標ではなく、物語を通して記述する。
正確なジオレファリングは生物多様性研究に不可欠であるが、このプロセスは労働集約的であり、自動化されたジオレファレンスソリューションの需要に繋がる。
本稿では,大規模言語モデル(LLM)が複雑な局所性記述を自動的にジオレファレンスする可能性について考察し,生物多様性収集領域に焦点をあてる。
最初に有効なプロンプトパターンを特定し、その後、複数の地域や言語からの生物多様性データセット上で、量子化低ランク適応(QLoRA)を用いてLLMを微調整した。
われわれのアプローチは、データセットを平均して、半径10km以内のレコードの65%を一定のトレーニングデータとして、既存のベースラインを上回っている。
最良の結果(ニューヨーク州)は10km以内で85%,1km以内で67%だった。
選択されたLLMは、長大で複雑な記述に対してよく機能し、複雑な局所性記述のジオレファレンスの可能性を強調している。
関連論文リスト
- Where on Earth Do Users Say They Are?: Geo-Entity Linking for Noisy Multilingual User Input [2.516307239032451]
本稿では,実世界の位置情報をラベル付きユーザ・インプット・ロケーション名から平均的な埋め込みとして表現する手法を提案する。
本稿では,グローバルおよび多言語ソーシャルメディアデータセット上でのジオエンタリティリンクの改善について述べる。
論文 参考訳(メタデータ) (2024-04-29T15:18:33Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z) - Geo-Encoder: A Chunk-Argument Bi-Encoder Framework for Chinese
Geographic Re-Ranking [61.60169764507917]
中国の地理的再ランクタスクは、検索された候補者の中で最も関連性の高い住所を見つけることを目的としている。
そこで我々は,中国語の地理的意味論をより効果的に統合する,革新的なフレームワークであるGeo-Encoderを提案する。
論文 参考訳(メタデータ) (2023-09-04T13:44:50Z) - GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。
オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。
我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (2023-05-11T03:21:56Z) - MGeo: Multi-Modal Geographic Pre-Training Method [49.78466122982627]
マルチモーダルジオグラフィック言語モデル(MGeo)を提案する。
MGeoはGCを新しいモダリティとして表現し、正確なクエリ-POIマッチングのためのマルチモーダル相関を完全に抽出することができる。
提案するマルチモーダル事前学習法は,汎用PTMのクエリ-POIマッチング能力を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-11T03:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。