論文の概要: ENEIDE: A High Quality Silver Standard Dataset for Named Entity Recognition and Linking in Historical Italian
- arxiv url: http://arxiv.org/abs/2603.29801v1
- Date: Tue, 31 Mar 2026 14:32:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.72057
- Title: ENEIDE: A High Quality Silver Standard Dataset for Named Entity Recognition and Linking in Historical Italian
- Title(参考訳): ENEIDE: 歴史的イタリアにおける名前付きエンティティ認識とリンクのための高品質銀標準データセット
- Authors: Cristian Santini, Sebastian Barzaghi, Paolo Sernani, Emanuele Frontoni, Laura Melosi, Mehwish Alam,
- Abstract要約: ENEIDEは、トレーニング、開発、テストスプリットを備えた、最初のマルチドメインのNERLデータセットである。
本稿では,手作業による学習用デジタル版からの半自動アノテーション抽出手法を提案する。
最先端モデルを用いたベースライン実験では、NERLに対するデータセットの課題とゼロショットアプローチと微調整モデルとのギャップが示されている。
- 参考スコア(独自算出の注目度): 8.815891100152148
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper introduces ENEIDE (Extracting Named Entities from Italian Digital Editions), a silver standard dataset for Named Entity Recognition and Linking (NERL) in historical Italian texts. The corpus comprises 2,111 documents with over 8,000 entity annotations semi-automatically extracted from two scholarly digital editions: Digital Zibaldone, the philosophical diary of the Italian poet Giacomo Leopardi (1798--1837), and Aldo Moro Digitale, the complete works of the Italian politician Aldo Moro (1916--1978). Annotations cover multiple entity types (person, location, organization, literary work) linked to Wikidata identifiers, including NIL entities that cannot be mapped to the knowledge graph. To the best of our knowledge, ENEIDE represents the first multi-domain, publicly available NERL dataset for historical Italian with training, development, and test splits. We present a methodology for semi-automatic annotations extraction from manually curated scholarly digital editions, including quality control and annotation enhancement procedures. Baseline experiments using state-of-the-art models demonstrate the dataset's challenge for NERL and the gap between zero-shot approaches and fine-tuned models. The dataset's diachronic coverage spanning two centuries makes it particularly suitable for temporal entity disambiguation and cross-domain evaluation. ENEIDE is released under a CC BY-NC-SA 4.0 license.
- Abstract(参考訳): 本稿では,歴史的イタリア語テキストにおける名前付きエンティティ認識リンク(NERL)の銀標準データセットであるENEIDE(Extracting Named Entities from Italian Digital Editions)を紹介する。
コーパスは、イタリアの詩人ジャコモ・レオパルディ(1798年-1837年)の哲学日記であるDigital Zibaldoneと、イタリアの政治家アルド・モロ(1916年-1978年)の完全な著作であるアルド・モロ・デジタル(英語版)の2つの学術的デジタル版から半自動で抽出された2,111の文書からなる。
アノテーションはWikidata識別子にリンクされた複数のエンティティタイプ(人、場所、組織、文学作品)をカバーしており、知識グラフにマッピングできないNILエンティティを含んでいる。
私たちの知る限りでは、ENEIDEは、トレーニング、開発、テストの分割を伴う歴史的イタリアにおける、最初のマルチドメイン、公開可能なNERLデータセットである。
本稿では,手作業による学習用デジタル版からの半自動アノテーション抽出手法を提案する。
最先端モデルを用いたベースライン実験では、NERLに対するデータセットの課題とゼロショットアプローチと微調整モデルとのギャップが示されている。
データセットの2世紀にわたるダイアクロニックカバレッジは、時間的実体の曖昧さとドメイン間の評価に特に適している。
ENEIDEはCC BY-NC-SA 4.0ライセンスでリリースされた。
関連論文リスト
- DELICATE: Diachronic Entity LInking using Classes And Temporal Evidence [9.341457688757073]
本研究の目的は,人文科学分野における2つの主要な貢献による課題に対処することである。
最初の貢献は、歴史的イタリアにおけるELの新しいニューロシンボリックな方法であるDeLICATEである。
第2の貢献は、19世紀から20世紀にかけての2つの注釈付き版から抽出された、歴史的イタリアの半自動的な多領域ELコーパスであるENEIDEである。
論文 参考訳(メタデータ) (2025-11-13T15:24:27Z) - SiDiaC: Sinhala Diachronic Corpus [1.256381443503838]
SiDiaCは5世紀から20世紀にかけての歴史をカバーした最初の総合的なシンハラ・ダイアクロニック・コーパスである。
SiDiaCは、46の文学作品に58kの単語を収録し、その日付に基づいて注意深い注釈を付け、可用性、著作者権、著作権の遵守、データ属性に基づいてフィルタリングする。
論文 参考訳(メタデータ) (2025-09-22T15:37:51Z) - Apertus: Democratizing Open and Compliant LLMs for Global Language Environments [163.70368742538187]
Apertusは、今日のオープンモデルエコシステムにおける2つのシステム的欠点に対処するために設計された、大きな言語モデル(LLM)の完全なオープンスイートである。
Apertusモデルは、公開データにのみ事前訓練されており、ロボット.txtの除外や、非許容的で有毒で個人が特定可能なコンテンツに対するフィルタリングを尊重している。
Apertusモデルはまた、1800以上の言語から15Tトークンをトレーニングし、非英語コンテンツに割り当てられた事前トレーニングデータの40%をトレーニングしている。
論文 参考訳(メタデータ) (2025-09-17T17:59:21Z) - Named Entity Recognition in Historical Italian: The Case of Giacomo Leopardi's Zibaldone [4.795582035438343]
歴史的テキストの課題に適応できる計算技術が緊急に必要である。
大規模言語モデル(LLM)の台頭は、自然言語処理に革命をもたらした。
イタリア語のテキストに対する詳細な評価は提案されていない。
論文 参考訳(メタデータ) (2025-05-26T15:16:48Z) - Unlocking Comics: The AI4VA Dataset for Visual Understanding [62.345344799258804]
本稿では,1950年代のフレンチ・ベルジアン漫画に,深度推定,セマンティックセグメンテーション,サリエンシ検出,キャラクタ識別などのタスクを注記した新しいデータセットを提案する。
2つの異なる一貫したスタイルで構成され、自然画像から得られたオブジェクトの概念とラベルを取り入れている。
このような多様な情報を含むことで、このデータセットは計算の創造性を約束するだけでなく、アートのデジタル化やストーリーテリングの革新のための道も提供します。
論文 参考訳(メタデータ) (2024-10-27T14:27:05Z) - Seventeenth-Century Spanish American Notary Records for Fine-Tuning Spanish Large Language Models [2.433690251078502]
我々の資料は、アルゼンチン国立公文書館から入手した17世紀の手書きの記譜集である。
我々のコレクションは、分類やマスキング言語モデリングといったタスクのために、スペイン語のLLMを微調整するのに利用できることを実証する。
私たちのリソースは、過去のテキスト分析の貴重なリソースであり、GitHubで公開されています。
論文 参考訳(メタデータ) (2024-06-09T14:54:22Z) - A tailored Handwritten-Text-Recognition System for Medieval Latin [40.27709775411759]
バイエルン科学人文科学アカデミーは中世ラテン語辞典のデジタル化を目指している。
この辞書は、低資源言語である中世ラテン語のレムマを参照するレコードカードを含んでいる。
我々は中世ラテン語の辞書に合わせたエンドツーエンドのパイプラインを導入し、補題の検索、抽出、翻訳を行う。
論文 参考訳(メタデータ) (2023-08-18T08:02:52Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - Digital Editions as Distant Supervision for Layout Analysis of Printed
Books [76.29918490722902]
本稿では,この意味的マークアップを,レイアウト解析モデルのトレーニングと評価のための遠隔監視として利用する手法について述べる。
DTA(Deutsches Textarchiv)の50万ページにわたるモデルアーキテクチャの実験では、これらの領域レベルの評価手法と画素レベルのメトリクスとワードレベルのメトリクスとの高い相関性を見出した。
自己学習による精度向上の可能性と、DTAで訓練されたモデルが他の歴史書に一般化できる可能性について論じる。
論文 参考訳(メタデータ) (2021-12-23T16:51:53Z) - Knowledge-Rich Self-Supervised Entity Linking [58.838404666183656]
Knowledge-RIch Self-Supervision(KRISSBERT$)は400万のUMLSエンティティのためのユニバーサルエンティティリンカーである。
提案手法はゼロショット法と少数ショット法を仮定し,利用可能であればエンティティ記述やゴールドレファレンスラベルを簡単に組み込むことができる。
ラベル付き情報を一切使わずに400万のUMLSエンティティのためのユニバーサルエンティティリンカである$tt KRISSBERT$を生成する。
論文 参考訳(メタデータ) (2021-12-15T05:05:12Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。