論文の概要: Matching and Linking Entries in Historical Swedish Encyclopedias
- arxiv url: http://arxiv.org/abs/2507.01170v1
- Date: Tue, 01 Jul 2025 20:17:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.874127
- Title: Matching and Linking Entries in Historical Swedish Encyclopedias
- Title(参考訳): スウェーデンの歴史百科事典におけるマッチングとリンク
- Authors: Simon Börjesson, Erik Ersmark, Pierre Nugues,
- Abstract要約: textitNordisk familjebokは19世紀から20世紀のスウェーデンの百科事典である。
本稿では, textitProject Runeberg のデジタル版を用いた。
我々は、トランスフォーマーベースの分類器を用いて、両版から地理的エントリを抽出し、Wikidataにリンクした。
我々は、ヨーロッパから北アメリカ、アフリカ、アジア、オーストラリア、スカンジナビア北部への地理的焦点の小さな変化を観察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The \textit{Nordisk familjebok} is a Swedish encyclopedia from the 19th and 20th centuries. It was written by a team of experts and aimed to be an intellectual reference, stressing precision and accuracy. This encyclopedia had four main editions remarkable by their size, ranging from 20 to 38 volumes. As a consequence, the \textit{Nordisk familjebok} had a considerable influence in universities, schools, the media, and society overall. As new editions were released, the selection of entries and their content evolved, reflecting intellectual changes in Sweden. In this paper, we used digitized versions from \textit{Project Runeberg}. We first resegmented the raw text into entries and matched pairs of entries between the first and second editions using semantic sentence embeddings. We then extracted the geographical entries from both editions using a transformer-based classifier and linked them to Wikidata. This enabled us to identify geographic trends and possible shifts between the first and second editions, written between 1876-1899 and 1904-1926, respectively. Interpreting the results, we observe a small but significant shift in geographic focus away from Europe and towards North America, Africa, Asia, Australia, and northern Scandinavia from the first to the second edition, confirming the influence of the First World War and the rise of new powers. The code and data are available on GitHub at https://github.com/sibbo/nordisk-familjebok.
- Abstract(参考訳): \textit{Nordisk familjebok} は19世紀から20世紀のスウェーデンの百科事典である。
専門家のチームによって書かれたもので、正確さと正確さを強調した知的基準を目指していた。
この百科事典には、20巻から38巻の4つの主要な版がある。
その結果、大学、学校、メディア、社会全体に大きな影響を与えた。
新しい版がリリースされると、スウェーデンの知的変化を反映して、エントリーとコンテンツの選択が進化した。
本稿では, <textit{Project Runeberg} のデジタル版を用いた。
まず、原文をエントリに分割し、意味文埋め込みを用いて第1版と第2版のエントリのペアをマッチングした。
次に、トランスフォーマーベースの分類器を用いて、両版から地理的エントリを抽出し、Wikidataにリンクした。
これにより、1876年-1899年と1904-1926年にそれぞれ書かれた第1版と第2版の間での地理的傾向と変化の可能性を見極めることができた。
結果を踏まえると、ヨーロッパから北アメリカ、アフリカ、アジア、オーストラリア、スカンジナビア北部へ、そして第1版から第2版まで、地理的焦点の小さな、しかし重要な変化が観察され、第一次世界大戦の影響と新たな勢力の台頭が確認された。
コードとデータはGitHubでhttps://github.com/sibbo/nordisk-familjebok.comで公開されている。
関連論文リスト
- WikiGap: Promoting Epistemic Equity by Surfacing Knowledge Gaps Between English Wikipedia and other Language Editions [31.58588164648108]
ウィキガップ(WikiGap)は、ウィキペディアの他のウィキペディアのインタフェースから得られる補完的な事実を抽出するシステムである。
具体的には、最近の多言語情報ギャップ発見法とユーザ中心の設計を組み合わせることで、WikiGapはフランス語、ロシア語、中国語のウィキペディアから補完的な情報にアクセスすることができる。
論文 参考訳(メタデータ) (2025-05-30T04:14:03Z) - Mapping the Past: Geographically Linking an Early 20th Century Swedish Encyclopedia with Wikidata [0.0]
私たちは、38巻と182,000以上の記事からなる『textitUggleupplagan』という第2版に焦点を当てた。
項目の約22%が場所であることがわかった。
この論文は、ファミルイェボクのテクストにおける地理的情報の選択と表現に光を当て、歴史的・社会的視点に関する洞察を与えている。
論文 参考訳(メタデータ) (2024-06-25T19:34:00Z) - Linking Named Entities in Diderot's \textit{Encyclopédie} to Wikidata [0.0]
ディドロトの『Encyclop'edie』はヨーロッパにおける第8世紀からの参考文献で、その時代の知識を収集することを目的としている。
2つの百科事典間のデジタル接続の欠如は、それらの比較と知識がどのように進化したかの研究を妨げる可能性がある。
我々は,textitEncyclop'edieエントリの10,300以上のアノテーションをWikidata識別子で記述し,これらのエントリをグラフに接続する。
論文 参考訳(メタデータ) (2024-06-05T13:00:04Z) - X-PARADE: Cross-Lingual Textual Entailment and Information Divergence across Paragraphs [55.80189506270598]
X-PARADEは、段落レベルの情報の分岐の最初の言語間データセットである。
アノテーションは、対象言語における段落をスパンレベルでラベル付けし、ソース言語における対応する段落に対して評価する。
アライメントされた段落は、異なる言語のウィキペディアページから引用される。
論文 参考訳(メタデータ) (2023-09-16T04:34:55Z) - Geographic Citation Gaps in NLP Research [63.13508571014673]
この研究は、地理的な位置と出版の成功との関係について一連の疑問を呈する。
われわれはまず,ACLアンソロジーから7万件の論文のデータセットを作成し,そのメタ情報を抽出し,引用ネットワークを生成した。
論文の受理や引用において地理的に大きな差異があるだけでなく,出版場所やNLPのサブフィールドなどの変数を制御しても,これらの格差は持続することを示す。
論文 参考訳(メタデータ) (2022-10-26T02:25:23Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Connecting a French Dictionary from the Beginning of the 20th Century to
Wikidata [0.0]
textitPetit Larousse illustr'eは1905年に出版されたフランスの辞書である。
我々は、歴史と地理の全ての辞書エントリを現在のデータソースに接続する、新しい語彙資源について記述する。
wikidataのリンクを使えば、歴史的に分類された表現の識別、比較、検証をより容易に自動化できる。
論文 参考訳(メタデータ) (2022-06-22T12:45:21Z) - NorDiaChange: Diachronic Semantic Change Dataset for Norwegian [63.65426535861836]
NorDiaChangeはノルウェーにおける最初のダイアクロニックなセマンティックチェンジデータセットである。
ノルウェーの約80の名詞が、時間とともに格付けされた意味変化で注釈付けされている。
論文 参考訳(メタデータ) (2022-01-13T18:27:33Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - \textit{NewsEdits}: A Dataset of Revision Histories for News Articles
(Technical Report: Data Processing) [89.77347919191774]
textitNewsEditsは、ニュース記事の改訂履歴の最初の公開データセットです。
1,278,804条と、22以上の英語とフランス語の新聞から4,609,430版がある。
論文 参考訳(メタデータ) (2021-04-19T21:15:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。