論文の概要: DaMuEL: A Large Multilingual Dataset for Entity Linking
- arxiv url: http://arxiv.org/abs/2306.09288v1
- Date: Thu, 15 Jun 2023 17:15:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 13:35:10.596415
- Title: DaMuEL: A Large Multilingual Dataset for Entity Linking
- Title(参考訳): DaMuEL: エンティティリンクのための大規模多言語データセット
- Authors: David Kube\v{s}a, Milan Straka
- Abstract要約: DaMuELは、エンティティに関する言語に依存しない情報を含む知識ベースと、知識ベースにリンクされたエンティティの言及を持つウィキペディアテキストの2つのコンポーネントから構成される。
データセットには、知識ベースに279万個の名前付きエンティティと、Wikipediaのテキストから12.3Gトークンが含まれている。
- 参考スコア(独自算出の注目度): 2.8273701718153563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present DaMuEL, a large Multilingual Dataset for Entity Linking containing
data in 53 languages. DaMuEL consists of two components: a knowledge base that
contains language-agnostic information about entities, including their claims
from Wikidata and named entity types (PER, ORG, LOC, EVENT, BRAND, WORK_OF_ART,
MANUFACTURED); and Wikipedia texts with entity mentions linked to the knowledge
base, along with language-specific text from Wikidata such as labels, aliases,
and descriptions, stored separately for each language. The Wikidata QID is used
as a persistent, language-agnostic identifier, enabling the combination of the
knowledge base with language-specific texts and information for each entity.
Wikipedia documents deliberately annotate only a single mention for every
entity present; we further automatically detect all mentions of named entities
linked from each document. The dataset contains 27.9M named entities in the
knowledge base and 12.3G tokens from Wikipedia texts. The dataset is published
under the CC BY-SA license at https://hdl.handle.net/11234/1-5047.
- Abstract(参考訳): 本稿では,53言語にデータを含むエンティティリンクのための大規模多言語データセットDaMuELを提案する。
DaMuELは2つのコンポーネントから構成される: Wikidataの主張や名前付きエンティティタイプ(PER, ORG, LOC, EVENT, BRAND, WORK_OF_ART, ManufacturingED)を含むエンティティに関する言語に依存しない情報を含む知識ベースと、その知識ベースにリンクされたエンティティを参照するWikipediaテキストと、ラベル、エイリアス、記述などのWikidataの言語固有のテキスト。
Wikidata QIDは永続的で言語に依存しない識別子として使用され、知識ベースと言語固有のテキストと各エンティティの情報の組み合わせを可能にする。
ウィキペディア文書は、現在あるすべてのエンティティに対して1つの言及のみを意図的に注釈付けし、各ドキュメントからリンクされた名前付きエンティティのすべての言及を自動で検出する。
データセットには知識ベースに27.9MのエンティティとWikipediaのテキストから12.3Gトークンが含まれている。
データセットはCC BY-SAライセンスでhttps://hdl.handle.net/11234/1-5047で公開されている。
関連論文リスト
- SRFUND: A Multi-Granularity Hierarchical Structure Reconstruction Benchmark in Form Understanding [55.48936731641802]
階層的に構造化されたマルチタスク形式理解ベンチマークであるSRFUNDを提案する。
SRFUNDはオリジナルのFUNSDとXFUNDデータセットの上に洗練されたアノテーションを提供する。
データセットには、英語、中国語、日本語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語を含む8つの言語が含まれている。
論文 参考訳(メタデータ) (2024-06-13T02:35:55Z) - KIF: A Wikidata-Based Framework for Integrating Heterogeneous Knowledge Sources [0.45141207783683707]
我々は、異種知識ソースを仮想的に統合するためのWikidataベースのフレームワークKIFを提案する。
KIFはPythonで書かれており、オープンソースとしてリリースされている。
論文 参考訳(メタデータ) (2024-03-15T13:46:36Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - ParaNames: A Massively Multilingual Entity Name Corpus [2.741266294612776]
ParaNamesは、約1400万のエンティティの名前からなる多言語並列名リソースである。
Wikidataをソースとして、私たちはこのタイプの最も大きなリソースを作成します。
論文 参考訳(メタデータ) (2022-02-28T18:58:06Z) - Improving Candidate Retrieval with Entity Profile Generation for
Wikidata Entity Linking [76.00737707718795]
本稿では,エンティティ・プロファイリングに基づく新しい候補探索パラダイムを提案する。
我々は、このプロファイルを使用してインデックス付き検索エンジンに問い合わせ、候補エンティティを検索する。
本手法は,ウィキペディアのアンカーテキスト辞書を用いた従来の手法を補完するものである。
論文 参考訳(メタデータ) (2022-02-27T17:38:53Z) - Survey on English Entity Linking on Wikidata [3.8289963781051415]
Wikidataはコミュニティ主導の多言語知識グラフである。
現在のWikidata固有のEntity Linkingデータセットは、DBpediaのような他の知識グラフのためのスキームとアノテーションスキームの違いはない。
ほとんど全てのアプローチはラベルや時々記述のような特定の特性を用いるが、ハイパーリレーショナル構造のような特性は無視する。
論文 参考訳(メタデータ) (2021-12-03T16:02:42Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - MobIE: A German Dataset for Named Entity Recognition, Entity Linking and
Relation Extraction in the Mobility Domain [76.21775236904185]
データセットは3,232のソーシャルメディアテキストと91Kトークンによるトラフィックレポートで構成され、20.5Kアノテーション付きエンティティを含んでいる。
データセットのサブセットには,7つのモビリティ関連,n-ary関係型がアノテートされている。
私たちの知る限りでは、NER、EL、REのアノテーションを組み合わせた最初のドイツ語データセットです。
論文 参考訳(メタデータ) (2021-08-16T08:21:50Z) - Named Entity Recognition and Linking Augmented with Large-Scale
Structured Data [3.211619859724085]
BSNLP 2019とBSNLP 2021で開かれた第2回と第3回SlavNER共有タスクへの提出について述べる。
タスクは、スラブ語の多言語web文書における名前付きエンティティの分析に焦点を当てた。
私たちのソリューションは、非構造化文書と構造化文書の両方の大規模なコレクションを利用します。
論文 参考訳(メタデータ) (2021-04-27T20:10:18Z) - Mining Wikidata for Name Resources for African Languages [0.6091702876917281]
28のアフリカの言語で 約9千万の名前をリストしています
私たちは、データ、それを生成するために使用されるプロセス、およびその制限を説明し、公開するためにソフトウェアとデータを提供します。
論文 参考訳(メタデータ) (2021-04-01T15:34:53Z) - Autoregressive Entity Retrieval [55.38027440347138]
エンティティは、知識の表現と集約の方法の中心にあります。
クエリが与えられたエンティティを検索できることは、エンティティリンクやオープンドメインの質問応答のような知識集約的なタスクに基本となる。
本稿では,自己回帰方式でトークン・バイ・トークンを左から右に生成し,エンティティを検索する最初のシステムであるGENREを提案する。
論文 参考訳(メタデータ) (2020-10-02T10:13:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。