論文の概要: ATLAS: Article Tracking, Linking, and Analysis of Swedish Encyclopedias
- arxiv url: http://arxiv.org/abs/2605.02466v1
- Date: Mon, 04 May 2026 11:08:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.256822
- Title: ATLAS: Article Tracking, Linking, and Analysis of Swedish Encyclopedias
- Title(参考訳): ATLAS:スウェーデン百科事典の追跡・リンク・分析
- Authors: Albin Andersson, Salam Jonasson, Fredrik Wastring, Pierre Nugues,
- Abstract要約: スウェーデン百科事典のテキスト構造を復元するパイプラインを構築した。
キーワードを抽出し、エントリを識別し、エンティティを分類し、エディション間でエントリにマッチし、Wikidataアイテムにエントリをリンクする。
これは、デジタル化された歴史的知識に対する自動的なアプローチが可能であることを示している。
- 参考スコア(独自算出の注目度): 0.9332987715848714
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The digitization of old encyclopedias represents an important step to improve access to historically structured knowledge. Often, however, this process does not go beyond an optical character recognition, leaving all the underlying structure unexploited. In addition, many encyclopedias had multiple editions reflecting the evolution of knowledge. The lack of structure in the raw text makes it difficult to track changes across these editions. In this work, we built a pipeline to restore the text structure, where we extract the headwords and identify entries; categorize the entities; match entries across editions; and link entries to a Wikidata item. We applied this pipeline to the four major editions of \textit{Nordisk familjebok}, an authoritative Swedish encyclopedia published between 1876 and 1951. We could extract the headwords with an F1 score of 97.8\% and we obtained an F1 score of 93.4\% on the headword classification. On a small-scale evaluation, we reached a 93\% precision on the cross-edition matching, 85\% precision and 16.5\% recall on the Wikidata linking. This shows that an automated approach to digitized historical knowledge is possible. This should facilitate the preservation of general knowledge and the understanding of knowledge transmission. The datasets and programs are available online.
- Abstract(参考訳): 古い百科事典のデジタル化は、歴史的に構造化された知識へのアクセスを改善する重要なステップである。
しかし、このプロセスは光学的文字認識に留まらず、基礎となる全ての構造は明らかにされていない。
また、多くの百科事典には知識の進化を反映した複数の版がある。
原文の構造の欠如は、これらのエディション間の変更を追跡するのを困難にしている。
本研究では,テキスト構造を復元するパイプラインを構築し,見出しの抽出とエントリの識別,エンティティの分類,エディション間のエントリのマッチング,Wikidata項目へのエントリのリンクを行う。
このパイプラインを1876年から1951年にかけて発行されたスウェーデンの権威ある百科事典『textit{Nordisk familjebok}』の4大版に適用した。
F1は97.8 %,F1 は93.4 %であった。
小規模評価では, 相互編集マッチングでは 93 % の精度, 85 % の精度, Wikidata リンクでは 16.5 % のリコールに到達した。
これは、デジタル化された歴史的知識に対する自動的なアプローチが可能であることを示している。
これにより、一般知識の保存と知識伝達の理解が容易になる。
データセットとプログラムはオンラインで公開されている。
関連論文リスト
- Diagnosing and Mitigating Semantic Inconsistencies in Wikidata's Classification Hierarchy [1.4705700441788643]
Wikidataはウェブ上で最大のオープンナレッジグラフであり、1億2000万以上のエンティティを含んでいる。
本研究では,分類誤りと過一般化サブクラスリンクの存在を確認するために,新しい検証手法を提案し,適用した。
ユーザが任意のウィキデータエンティティの分類関係を検査できるシステムを開発した。
論文 参考訳(メタデータ) (2025-11-07T02:09:00Z) - Towards a Brazilian History Knowledge Graph [50.26735825937335]
ブラジル歴史辞典(DHBB)とウィキペディア/ウィキデータに基づくブラジルの歴史に関する知識グラフを構築した。
DHBBに記述されている多くの用語/エンティティがWikidataに対応する概念(またはQ項目)を持っていないことを示す。
論文 参考訳(メタデータ) (2024-03-28T22:05:32Z) - Wikidata as a seed for Web Extraction [4.273966905160028]
複数のWebドメインで公開された新しい事実を識別・抽出できるフレームワークを提案する。
我々は,テキストコレクションから事実を抽出し,Webページから事実を抽出するためのアイデアから着想を得た。
実験の結果,F1スコアでの平均性能は84.07であることがわかった。
論文 参考訳(メタデータ) (2024-01-15T16:35:52Z) - WikiIns: A High-Quality Dataset for Controlled Text Editing by Natural
Language Instruction [56.196512595940334]
WikiInsは高品質な制御されたテキスト編集データセットで、情報性が向上している。
高品質なアノテートデータセットを用いて,大規模な銀のトレーニングセットを生成するための自動アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-08T04:46:39Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Improving Candidate Retrieval with Entity Profile Generation for
Wikidata Entity Linking [76.00737707718795]
本稿では,エンティティ・プロファイリングに基づく新しい候補探索パラダイムを提案する。
我々は、このプロファイルを使用してインデックス付き検索エンジンに問い合わせ、候補エンティティを検索する。
本手法は,ウィキペディアのアンカーテキスト辞書を用いた従来の手法を補完するものである。
論文 参考訳(メタデータ) (2022-02-27T17:38:53Z) - Wikidated 1.0: An Evolving Knowledge Graph Dataset of Wikidata's
Revision History [5.727994421498849]
Wikidataの完全なリビジョン履歴のデータセットであるWikidated 1.0を提示する。
私たちの知識を最大限に活用するために、それは進化する知識グラフの最初の大きなデータセットを構成する。
論文 参考訳(メタデータ) (2021-12-09T15:54:03Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。