論文の概要: Evaluating end-to-end entity linking on domain-specific knowledge bases:
Learning about ancient technologies from museum collections
- arxiv url: http://arxiv.org/abs/2305.14588v1
- Date: Tue, 23 May 2023 23:53:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 21:08:15.883675
- Title: Evaluating end-to-end entity linking on domain-specific knowledge bases:
Learning about ancient technologies from museum collections
- Title(参考訳): ドメイン固有の知識ベースをリンクするエンドツーエンドエンティティの評価:博物館コレクションから古代技術を学ぶ
- Authors: Sebastian Cadavid-Sanchez, Khalil Kacem, Rafael Aparecido Martins
Frade, Johannes Boehm, Thomas Chaney, Danial Lashkari, Daniel Simig
- Abstract要約: 我々は,7,510対の注釈付き1700以上のテキストからなるデータセットを収集した。
このデータセットを用いて、市販のソリューションを詳細に評価し、このデータ上で最近のエンドツーエンドのELモデルを微調整する。
我々の微調整モデルは、このドメインで現在利用可能な他のアプローチよりも大幅に優れており、このモデルの概念実証のユースケースを示す。
- 参考スコア(独自算出の注目度): 1.3854111346209868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To study social, economic, and historical questions, researchers in the
social sciences and humanities have started to use increasingly large
unstructured textual datasets. While recent advances in NLP provide many tools
to efficiently process such data, most existing approaches rely on generic
solutions whose performance and suitability for domain-specific tasks is not
well understood. This work presents an attempt to bridge this domain gap by
exploring the use of modern Entity Linking approaches for the enrichment of
museum collection data. We collect a dataset comprising of more than 1700 texts
annotated with 7,510 mention-entity pairs, evaluate some off-the-shelf
solutions in detail using this dataset and finally fine-tune a recent
end-to-end EL model on this data. We show that our fine-tuned model
significantly outperforms other approaches currently available in this domain
and present a proof-of-concept use case of this model. We release our dataset
and our best model.
- Abstract(参考訳): 社会的、経済的、歴史的問題を研究するために、社会科学と人文科学の研究者は、ますます大きな非構造化テキストデータセットを使い始めた。
NLPの最近の進歩は、そのようなデータを効率的に処理する多くのツールを提供しているが、既存のアプローチのほとんどは、ドメイン固有のタスクのパフォーマンスと適合性がよく理解されていない汎用的なソリューションに依存している。
本研究は,博物館コレクションデータの充実のための現代的エンティティリンクアプローチの利用を探求することで,この領域のギャップを埋める試みを示す。
このデータセットを用いて,7,510の言及と一致した1700以上のテキストからなるデータセットを収集し,市販のソリューションを詳細に評価し,最後に,このデータに基づいて最新のエンドツーエンドELモデルを微調整する。
我々の微調整モデルは、このドメインで現在利用可能な他のアプローチよりも大幅に優れており、このモデルの概念実証のユースケースを示す。
データセットと最高のモデルをリリースします。
関連論文リスト
- Numerical Literals in Link Prediction: A Critical Examination of Models and Datasets [2.5999037208435705]
数値リテラルを組み込んだリンク予測モデルは、既存のベンチマークデータセットに対してわずかに改善されている。
モデルが数値リテラルを使用するのに実際に優れているのか、あるいはグラフ構造を利用するのに優れているのかは、不明である。
本稿では,数値リテラルを組み込んだLPモデルの評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-25T17:55:33Z) - RanLayNet: A Dataset for Document Layout Detection used for Domain Adaptation and Generalization [36.973388673687815]
RanLayNetは、自動的に割り当てられたラベルでリッチ化された合成ドキュメントデータセットである。
本研究では,データセットでトレーニングしたディープレイアウト識別モデルに対して,実際の文書のみをトレーニングしたモデルと比較して,性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-04-15T07:50:15Z) - Query of CC: Unearthing Large Scale Domain-Specific Knowledge from
Public Corpora [104.16648246740543]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。
この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。
特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - Going beyond research datasets: Novel intent discovery in the industry
setting [60.90117614762879]
本稿では,大規模なeコマースプラットフォームに展開する意図発見パイプラインを改善する手法を提案する。
ドメイン内データに基づく事前学習型言語モデルの利点を示す。
また,クラスタリングタスクの微調整中に,実生活データセットの会話構造(質問と回答)を利用するための最善の方法も考案した。
論文 参考訳(メタデータ) (2023-05-09T14:21:29Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - Dynamic Fusion Network for Multi-Domain End-to-end Task-Oriented Dialog [70.79442700890843]
本稿では,対象ドメインと各ドメインの関連性を自動的に活用する新しい動的核融合ネットワーク(DF-Net)を提案する。
トレーニングデータが少ないと、平均13.9%の事前最良モデルを上回り、転送可能性を示す。
論文 参考訳(メタデータ) (2020-04-23T08:17:22Z) - Siamese Graph Neural Networks for Data Integration [11.41207739004894]
本稿では,リレーショナルデータベースなどの構造化データからエンティティをモデリングし,統合するための一般的なアプローチと,ニュース記事からの自由テキストなどの構造化されていない情報源を提案する。
我々のアプローチは、エンティティ間の関係を明示的にモデル化し、活用することにより、利用可能なすべての情報を使用し、できるだけ多くのコンテキストを保存するように設計されています。
我々は,ビジネスエンティティに関するデータ統合作業における手法の評価を行い,グラフベース表現を使用しない他のディープラーニングアプローチと同様に,標準的なルールベースシステムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-01-17T21:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。