論文の概要: EDDA-Coordinata: An Annotated Dataset of Historical Geographic Coordinates
- arxiv url: http://arxiv.org/abs/2602.23941v1
- Date: Fri, 27 Feb 2026 11:43:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.396169
- Title: EDDA-Coordinata: An Annotated Dataset of Historical Geographic Coordinates
- Title(参考訳): EDDA-Coordinata: 歴史的座標の注釈付きデータセット
- Authors: Ludovic Moncla, Pierre Nugues, Thierry Joliveau, Katherine McDonough,
- Abstract要約: 本稿では,ディドロトとダレムベルトの18世紀の百科事典から取得した豊富な地理的座標のデータセットを紹介する。
我々は、金の標準データセットを作成し、訓練されたモデルを作成し、その結果の推測および正規化された座標データを公開し、これらのモデルを新しいテキストに適用する実験を行った。
- 参考スコア(独自算出の注目度): 0.9472982531586446
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper introduces a dataset of enriched geographic coordinates retrieved from Diderot and d'Alembert's eighteenth-century Encyclopedie. Automatically recovering geographic coordinates from historical texts is a complex task, as they are expressed in a variety of ways and with varying levels of precision. To improve retrieval of coordinates from similar digitized early modern texts, we have created a gold standard dataset, trained models, published the resulting inferred and normalized coordinate data, and experimented applying these models to new texts. From 74,000 total articles in each of the digitized versions of the Encyclopedie from ARTFL and ENCCRE, we examined 15,278 geographical entries, manually identifying 4,798 containing coordinates, and 10,480 with descriptive but non-numerical references. Leveraging our gold standard annotations, we trained transformer-based models to retrieve and normalize coordinates. The pipeline presented here combines a classifier to identify coordinate-bearing entries and a second model for retrieval, tested across encoder-decoder and decoder architectures. Cross-validation yielded an 86% EM score. On an out-of-domain eighteenth-century Trevoux dictionary (also in French), our fine-tuned model had a 61% EM score, while for the nineteenth-century, 7th edition of the Encyclopaedia Britannica in English, the EM was 77%. These findings highlight the gold standard dataset's usefulness as training data, and our two-step method's cross-lingual, cross-domain generalizability.
- Abstract(参考訳): 本稿では,ディドロトとダレムベルトの18世紀の百科事典から取得した豊富な地理的座標のデータセットを紹介する。
歴史的テキストから自動的に地理座標を復元することは、様々な方法で表現され、様々な精度で表現されるため、複雑な作業である。
類似のデジタル化された現代テキストからの座標の検索を改善するために、金の標準データセットを作成し、訓練されたモデルを作成し、その結果の推測および正規化された座標データを公開し、これらのモデルを新しいテキストに適用する実験を行った。
ARTFL と ENCCRE のデジタル化版 Encyclopedie の合計 74,000 項目から, 座標を含む4,798 項目を手作業で同定し, 説明的かつ非数値的参照で 10,480 項目を抽出した。
金の標準アノテーションを活用して、座標の取得と正規化のためにトランスフォーマーベースのモデルを訓練しました。
ここで提示されるパイプラインは、座標を持つエントリを特定するための分類器と、エンコーダデコーダとデコーダアーキテクチャでテストされる検索のための第2のモデルを組み合わせる。
クロスバリデーションは86%のEMスコアを得た。
ドメイン外の18世紀のトレヴォー語辞書(フランス語版)では、我々の微調整されたモデルは61%のEMスコアを持ち、19世紀のブリタニカ百科事典第7版では、EMは77%であった。
これらの結果は、ゴールド標準データセットがトレーニングデータとして有用であること、および2段階のメソッドの言語横断的、ドメイン横断的な一般化性を強調している。
関連論文リスト
- Georeferencing complex relative locality descriptions with large language models [1.9911463513783276]
本稿では,局所性記述を自動的にジオレファレンスする大規模言語モデルの可能性について検討する。
最初に有効なプロンプトパターンを特定し,生物多様性データセット上での量子化低ランク適応(QLoRA)を用いてLLMを微調整した。
われわれのアプローチは、データセットを平均して、半径10km以内のレコードの65%を一定のトレーニングデータとして、既存のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-12-16T09:27:02Z) - NordFKB: a fine-grained benchmark dataset for geospatial AI in Norway [36.2419347658476]
ノルウェーの地理空間AIのための詳細なベンチマークデータセットであるNorFKBを提示する。
データセットには36のセマンティッククラスのための詳細なアノテーションと組み合わせた高解像度の正光度が含まれている。
NordFKBは、マッピング、土地管理、空間計画におけるAIメソッドの進歩のための堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2025-12-10T18:47:25Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching [60.645802236700035]
自然言語コマンドを通じてドローンをナビゲートすることは、アクセス可能なマルチモーダルデータセットが不足しているため、依然として難しい。
我々は新しい自然言語誘導ジオローカライゼーションベンチマークGeoText-1652を紹介する。
このデータセットは、インタラクティブなヒューマンコンピュータプロセスを通じて体系的に構築される。
論文 参考訳(メタデータ) (2023-11-21T17:52:30Z) - Geo-Encoder: A Chunk-Argument Bi-Encoder Framework for Chinese
Geographic Re-Ranking [61.60169764507917]
中国の地理的再ランクタスクは、検索された候補者の中で最も関連性の高い住所を見つけることを目的としている。
そこで我々は,中国語の地理的意味論をより効果的に統合する,革新的なフレームワークであるGeo-Encoderを提案する。
論文 参考訳(メタデータ) (2023-09-04T13:44:50Z) - GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。
オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。
我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (2023-05-11T03:21:56Z) - Navya3DSeg -- Navya 3D Semantic Segmentation Dataset & split generation
for autonomous vehicles [63.20765930558542]
3Dセマンティックデータは、障害物検出やエゴ-車両の局所化といった中核的な認識タスクに有用である。
そこで我々は,大規模生産段階の運用領域に対応する多様なラベル空間を持つ新しいデータセットであるNavala 3D(Navya3DSeg)を提案する。
ラベルのない23のラベル付きシーケンスと25の補足シーケンスが含まれており、ポイントクラウド上の自己教師付きおよび半教師付きセマンティックセマンティックセグメンテーションベンチマークを探索するために設計された。
論文 参考訳(メタデータ) (2023-02-16T13:41:19Z) - Regressing Location on Text for Probabilistic Geocoding [0.0]
テキストデータのジオコーディングのためのエンドツーエンド確率モデルを提案する。
ELECTRo-mapと呼ばれるモデルベースのソリューションと,イベントデータのテキストをジオコーディングする最先端のオープンソースシステムを比較した。
論文 参考訳(メタデータ) (2021-06-30T20:04:55Z) - Are We There Yet? Evaluating State-of-the-Art Neural Network based
Geoparsers Using EUPEG as a Benchmarking Platform [2.8935588665357077]
2019年6月、ジオパーシングコンペティション「Toponym Resolution in Scientific Papers」が開催された。
優勝チームは、優れたパフォーマンスを達成するニューラルネットワークベースのジオパーサーを開発した。
本研究は、最近開発されたベンチマークプラットフォームEUPEGを用いて、これらの最先端ジオパーサの体系的評価を行う。
論文 参考訳(メタデータ) (2020-07-15T03:13:15Z) - STEP: Spatial Temporal Graph Convolutional Networks for Emotion Perception from Gaits [60.37683428887577]
歩行から知覚された人間の感情を分類するために,STEPと呼ばれる新しいネットワークを提案する。
私たちは何百もの注釈付き現実世界のゲイトビデオを使って、何千もの注釈付き合成ゲイトでそれらを強化しています。
STEPは感情の特徴を学習でき、E-Gaitでは89%の分類精度を示す。
論文 参考訳(メタデータ) (2019-10-28T18:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。