論文の概要: DELICATE: Diachronic Entity LInking using Classes And Temporal Evidence
- arxiv url: http://arxiv.org/abs/2511.10404v1
- Date: Fri, 14 Nov 2025 01:49:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.852041
- Title: DELICATE: Diachronic Entity LInking using Classes And Temporal Evidence
- Title(参考訳): Delicate: クラスと時間的エビデンスを用いたダイアクロニックエンティティLinking
- Authors: Cristian Santini, Sebastian Barzaghi, Paolo Sernani, Emanuele Frontoni, Mehwish Alam,
- Abstract要約: 本研究の目的は,人文科学分野における2つの主要な貢献による課題に対処することである。
最初の貢献は、歴史的イタリアにおけるELの新しいニューロシンボリックな方法であるDeLICATEである。
第2の貢献は、19世紀から20世紀にかけての2つの注釈付き版から抽出された、歴史的イタリアの半自動的な多領域ELコーパスであるENEIDEである。
- 参考スコア(独自算出の注目度): 9.341457688757073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In spite of the remarkable advancements in the field of Natural Language Processing, the task of Entity Linking (EL) remains challenging in the field of humanities due to complex document typologies, lack of domain-specific datasets and models, and long-tail entities, i.e., entities under-represented in Knowledge Bases (KBs). The goal of this paper is to address these issues with two main contributions. The first contribution is DELICATE, a novel neuro-symbolic method for EL on historical Italian which combines a BERT-based encoder with contextual information from Wikidata to select appropriate KB entities using temporal plausibility and entity type consistency. The second contribution is ENEIDE, a multi-domain EL corpus in historical Italian semi-automatically extracted from two annotated editions spanning from the 19th to the 20th century and including literary and political texts. Results show how DELICATE outperforms other EL models in historical Italian even if compared with larger architectures with billions of parameters. Moreover, further analyses reveal how DELICATE confidence scores and features sensitivity provide results which are more explainable and interpretable than purely neural methods.
- Abstract(参考訳): 自然言語処理の分野では目覚ましい進歩があったが、複雑な文書タイプ、ドメイン固有のデータセットやモデルの欠如、そして知識ベース(KB)で表現されていないエンティティといったロングテールエンティティにより、エンティティリンク(EL)のタスクは、人文科学の領域では依然として困難なままである。
本稿の目的は、これらの問題を2つの主要なコントリビューションで解決することである。
最初のコントリビューションはDeLICATEである。これは歴史的イタリアにおけるELのニューラルシンボリックな手法で、BERTベースのエンコーダとWikidataからのコンテキスト情報を組み合わせて、時間的妥当性とエンティティタイプ整合性を利用して適切なKBエンティティを選択する。
第二のコントリビューションは、19世紀から20世紀にかけての2つの注釈付き版から抽出され、文学と政治のテキストを含む、歴史的イタリアにおける多分野のELコーパスである。
結果は,数十億のパラメータを持つ大規模アーキテクチャと比較しても,DeLICATEが歴史的イタリアにおける他のELモデルより優れていることを示す。
さらに、Deflicateの信頼性スコアと特徴感度が、純粋に神経的手法よりも説明しやすく解釈しやすい結果をもたらすことを明らかにする。
関連論文リスト
- Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - Named Entity Recognition in Historical Italian: The Case of Giacomo Leopardi's Zibaldone [4.795582035438343]
歴史的テキストの課題に適応できる計算技術が緊急に必要である。
大規模言語モデル(LLM)の台頭は、自然言語処理に革命をもたらした。
イタリア語のテキストに対する詳細な評価は提案されていない。
論文 参考訳(メタデータ) (2025-05-26T15:16:48Z) - Beyond Chunking: Discourse-Aware Hierarchical Retrieval for Long Document Question Answering [51.7493726399073]
本稿では,長文質問応答を改善するための対話型階層型フレームワークを提案する。
このフレームワークには3つの重要な革新がある: 長文の専門的な談話解析、LLMに基づく談話関係ノードの拡張、構造誘導階層検索である。
論文 参考訳(メタデータ) (2025-05-26T14:45:12Z) - Musical Heritage Historical Entity Linking [2.848644509520432]
エンティティ認識・分類・リンク(MHERCL)という音楽遺産を紹介する。
MHERCLは、音楽領域の歴史的周期から外挿された手書きの注釈付き文からなる新しいベンチマークである。
我々は、知識グラフ(KG)を用いて、教師なしエンティティリンク(EL)モデルと、教師付きエンティティリンカを拡張する方法を提案する。
論文 参考訳(メタデータ) (2025-02-13T10:51:40Z) - Unearthing Large Scale Domain-Specific Knowledge from Public Corpora [103.0865116794534]
データ収集パイプラインに大規模なモデルを導入し、ドメイン固有の情報の生成をガイドします。
このアプローチをRetrieve-from-CCと呼ぶ。
ドメイン固有の知識に関するデータを収集するだけでなく、パブリックコーパスから潜在的推論手順を含むデータをマイニングする。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - The LAM Dataset: A Novel Benchmark for Line-Level Handwritten Text
Recognition [40.20527158935902]
手書き文字認識(HTR)は、コンピュータビジョンと自然言語処理の交差点におけるオープンな問題である。
イタリア古写本のラインレベルの大規模なHTRデータセットであるLudocio Antonio Muratoriデータセットを60年以上にわたって1人の著者が編集した。
論文 参考訳(メタデータ) (2022-08-16T11:44:16Z) - Exhaustive Entity Recognition for Coptic: Challenges and Solutions [8.980876474818153]
本稿では,エジプトのヘレニズム時代の言語であるコプトの実体認識について述べる。
タスクに対するNLPアプローチを評価し、低リソースで形態学的に複雑な言語に適用することの難しさを概観する。
我々は,ウィキペディアにリンクするネスト付きエンティリティ認識と半自動エンティティを,頑健な依存関係解析,機能ベースのCRFモデル,手作りの知識ベースリソースに頼って,名前付きおよび名前なしのネスト付きエンティリティ認識と半自動エンティティのソリューションを提案する。
論文 参考訳(メタデータ) (2020-11-03T23:49:42Z) - A Dependency Syntactic Knowledge Augmented Interactive Architecture for
End-to-End Aspect-based Sentiment Analysis [73.74885246830611]
エンドツーエンドABSAのためのマルチタスク学習を用いた対話型アーキテクチャを新たに提案する。
このモデルは、よく設計された依存性関係埋め込みグラフ畳み込みネットワーク(DreGcn)を活用することで、構文知識(依存性関係と型)を完全に活用することができる。
3つのベンチマークデータセットの大規模な実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-04-04T14:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。