論文の概要: Building Multilingual Corpora for a Complex Named Entity Recognition and
Classification Hierarchy using Wikipedia and DBpedia
- arxiv url: http://arxiv.org/abs/2212.07429v1
- Date: Wed, 14 Dec 2022 11:38:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 16:33:22.229426
- Title: Building Multilingual Corpora for a Complex Named Entity Recognition and
Classification Hierarchy using Wikipedia and DBpedia
- Title(参考訳): WikipediaとDBpediaを用いた複雑名前付きエンティティ認識と分類階層のための多言語コーパスの構築
- Authors: Diego Alves, Gaurish Thakkar, Gabriel Amaral, Tin Kuculo, Marko
Tadi\'c
- Abstract要約: 多言語および階層型並列コーパスであるUNERデータセットについて述べる。
我々は,このタイプのデータセットを,DBpedia情報を備えたウィキペディアで利用可能なあらゆる言語で作成するために必要な開発手順について詳述する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the ever-growing popularity of the field of NLP, the demand for datasets
in low resourced-languages follows suit. Following a previously established
framework, in this paper, we present the UNER dataset, a multilingual and
hierarchical parallel corpus annotated for named-entities. We describe in
detail the developed procedure necessary to create this type of dataset in any
language available on Wikipedia with DBpedia information. The three-step
procedure extracts entities from Wikipedia articles, links them to DBpedia, and
maps the DBpedia sets of classes to the UNER labels. This is followed by a
post-processing procedure that significantly increases the number of identified
entities in the final results. The paper concludes with a statistical and
qualitative analysis of the resulting dataset.
- Abstract(参考訳): NLPの分野ではますます人気が高まり、低リソース言語でのデータセットの需要もそれに続く。
本稿では,従来確立されていたフレームワークに倣って,多言語および階層型並列コーパスであるUNERデータセットを提案する。
我々は、このタイプのデータセットをwikipediaで利用可能な言語で作成するのに必要な開発手順をdbpedia情報と共に詳細に記述する。
3段階の手順はwikipediaの記事からエンティティを抽出し、dbpediaにリンクし、dbpediaクラスのクラスをunerラベルにマップする。
処理後、最終結果で識別されたエンティティの数を大幅に増加させる処理手順が続く。
論文は、得られたデータセットの統計的および質的な分析で結論付ける。
関連論文リスト
- SRFUND: A Multi-Granularity Hierarchical Structure Reconstruction Benchmark in Form Understanding [55.48936731641802]
階層的に構造化されたマルチタスク形式理解ベンチマークであるSRFUNDを提案する。
SRFUNDはオリジナルのFUNSDとXFUNDデータセットの上に洗練されたアノテーションを提供する。
データセットには、英語、中国語、日本語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語を含む8つの言語が含まれている。
論文 参考訳(メタデータ) (2024-06-13T02:35:55Z) - Sinhala-English Parallel Word Dictionary Dataset [0.554780083433538]
本稿では,英語とシンハラ語に関連する多言語自然言語処理(NLP)タスクを支援する3つの並行英語・シンハラ語辞書(En-Si-dict-large,En-Si-dict-filtered,En-Si-dict-FastText)を紹介する。
論文 参考訳(メタデータ) (2023-08-04T10:21:35Z) - Building and Evaluating Universal Named-Entity Recognition English
corpus [0.0]
本稿では、自動的にアノテーション付きコーパスを生成するためのUniversal Named Entity Frameworkの適用について述べる。
ウィキペディアのデータとメタデータとDBpedia情報を抽出するワークフローを用いて、説明と評価を行う英語データセットを生成した。
論文 参考訳(メタデータ) (2022-12-14T11:32:24Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - Improving Candidate Retrieval with Entity Profile Generation for
Wikidata Entity Linking [76.00737707718795]
本稿では,エンティティ・プロファイリングに基づく新しい候補探索パラダイムを提案する。
我々は、このプロファイルを使用してインデックス付き検索エンジンに問い合わせ、候補エンティティを検索する。
本手法は,ウィキペディアのアンカーテキスト辞書を用いた従来の手法を補完するものである。
論文 参考訳(メタデータ) (2022-02-27T17:38:53Z) - Named Entity Recognition and Linking Augmented with Large-Scale
Structured Data [3.211619859724085]
BSNLP 2019とBSNLP 2021で開かれた第2回と第3回SlavNER共有タスクへの提出について述べる。
タスクは、スラブ語の多言語web文書における名前付きエンティティの分析に焦点を当てた。
私たちのソリューションは、非構造化文書と構造化文書の両方の大規模なコレクションを利用します。
論文 参考訳(メタデータ) (2021-04-27T20:10:18Z) - Generating Wikipedia Article Sections from Diverse Data Sources [57.23574577984244]
WikiTableTでいくつかのトレーニングとデコード戦略をベンチマークする。
我々の定性的な分析は、最良のアプローチは、流動的で高品質なテキストを生成することができるが、コヒーレンスに苦しむことがあることを示している。
論文 参考訳(メタデータ) (2020-12-29T19:35:34Z) - The RELX Dataset and Matching the Multilingual Blanks for Cross-Lingual
Relation Classification [0.0]
関係分類の現在のアプローチは、主に英語に焦点を当てている。
本稿では,多言語BERTに基づくベースラインモデルと,新しい多言語事前学習設定の2つの言語間関係分類モデルを提案する。
評価のために、英語、フランス語、ドイツ語、スペイン語、トルコ語における言語間関係分類のための新しいベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2020-10-19T11:08:16Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。