論文の概要: Named Entity Recognition and Linking Augmented with Large-Scale
Structured Data
- arxiv url: http://arxiv.org/abs/2104.13456v1
- Date: Tue, 27 Apr 2021 20:10:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-29 12:52:20.398152
- Title: Named Entity Recognition and Linking Augmented with Large-Scale
Structured Data
- Title(参考訳): 大規模構造化データによる名前付きエンティティ認識とリンク
- Authors: Pawe{\l} Rychlikowski, Bart{\l}omiej Najdecki, Adrian {\L}a\'ncucki,
Adam Kaczmarek
- Abstract要約: BSNLP 2019とBSNLP 2021で開かれた第2回と第3回SlavNER共有タスクへの提出について述べる。
タスクは、スラブ語の多言語web文書における名前付きエンティティの分析に焦点を当てた。
私たちのソリューションは、非構造化文書と構造化文書の両方の大規模なコレクションを利用します。
- 参考スコア(独自算出の注目度): 3.211619859724085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we describe our submissions to the 2nd and 3rd SlavNER Shared
Tasks held at BSNLP 2019 and BSNLP 2021, respectively. The tasks focused on the
analysis of Named Entities in multilingual Web documents in Slavic languages
with rich inflection. Our solution takes advantage of large collections of both
unstructured and structured documents. The former serve as data for
unsupervised training of language models and embeddings of lexical units. The
latter refers to Wikipedia and its structured counterpart - Wikidata, our
source of lemmatization rules, and real-world entities. With the aid of those
resources, our system could recognize, normalize and link entities, while being
trained with only small amounts of labeled data.
- Abstract(参考訳): 本稿では,BSNLP 2019 と BSNLP 2021 でそれぞれ開催された第2回と第3回 SlavNER 共有タスクについて述べる。
タスクは、スラブ語の多言語web文書における名前付きエンティティの分析に焦点を当てた。
当社のソリューションでは、構造化されていないドキュメントと構造化ドキュメントの両方の大規模なコレクションを活用しています。
前者は、言語モデルの教師なしトレーニングと語彙単位の埋め込みのためのデータとして機能する。
後者はウィキペディアとその構造を持つウィキデータ、我々のレマタイズルールのソース、および現実世界のエンティティを参照。
これらのリソースの助けを借りて、私たちのシステムは、少量のラベル付きデータでのみトレーニングされながら、エンティティを認識し、正規化し、リンクすることができる。
関連論文リスト
- Entity Insertion in Multilingual Linked Corpora: The Case of Wikipedia [14.221520251569173]
我々はLocEIと呼ばれるエンティティ挿入のためのフレームワークを開発し,その多言語版であるXLocEIを開発した。
XLocEIは全てのベースラインモデルより優れており、最小性能の低下でトレーニング中に見られない言語に対してゼロショットで適用可能であることを示す。
これらの発見は、例えばエディターが300以上のウィキペディアの言語バージョンにリンクを追加するのをサポートするために、実際にエンティティ挿入モデルを適用するのに重要である。
論文 参考訳(メタデータ) (2024-10-05T18:22:15Z) - SRFUND: A Multi-Granularity Hierarchical Structure Reconstruction Benchmark in Form Understanding [55.48936731641802]
階層的に構造化されたマルチタスク形式理解ベンチマークであるSRFUNDを提案する。
SRFUNDはオリジナルのFUNSDとXFUNDデータセットの上に洗練されたアノテーションを提供する。
データセットには、英語、中国語、日本語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語を含む8つの言語が含まれている。
論文 参考訳(メタデータ) (2024-06-13T02:35:55Z) - Cross-lingual Named Entity Corpus for Slavic Languages [1.8693484642696736]
この作業は、スラヴ自然言語処理ワークショップの一部として2017-2023年に行われた一連の共有タスクの結果である。
コーパスは、7つのトピックに関する5つの017文書から構成されており、その文書には5つの名前付きエンティティのクラスが注釈付けされている。
論文 参考訳(メタデータ) (2024-03-30T22:20:08Z) - Towards a Brazilian History Knowledge Graph [50.26735825937335]
ブラジル歴史辞典(DHBB)とウィキペディア/ウィキデータに基づくブラジルの歴史に関する知識グラフを構築した。
DHBBに記述されている多くの用語/エンティティがWikidataに対応する概念(またはQ項目)を持っていないことを示す。
論文 参考訳(メタデータ) (2024-03-28T22:05:32Z) - Building Multilingual Corpora for a Complex Named Entity Recognition and
Classification Hierarchy using Wikipedia and DBpedia [0.0]
多言語および階層型並列コーパスであるUNERデータセットについて述べる。
我々は,このタイプのデータセットを,DBpedia情報を備えたウィキペディアで利用可能なあらゆる言語で作成するために必要な開発手順について詳述する。
論文 参考訳(メタデータ) (2022-12-14T11:38:48Z) - The Fellowship of the Authors: Disambiguating Names from Social Network
Context [2.3605348648054454]
各エンティティに関する広範なテキスト記述を持つオーソリティリストは、欠落しており、曖昧な名前のエンティティである。
BERTをベースとした参照表現と,さまざまなグラフ誘導戦略を組み合わせて,教師付きクラスタ推論手法と教師なしクラスタ推論手法を実験する。
ドメイン内言語モデルの事前学習は,特により大きなコーパスに対して,参照表現を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2022-08-31T21:51:55Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。