論文の概要: Wojood: Nested Arabic Named Entity Corpus and Recognition using BERT
- arxiv url: http://arxiv.org/abs/2205.09651v2
- Date: Mon, 23 May 2022 07:33:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-06 04:37:57.069813
- Title: Wojood: Nested Arabic Named Entity Corpus and Recognition using BERT
- Title(参考訳): wojood:ネストされたアラビア語の名前付きエンティティコーパスとbertを用いた認識
- Authors: Mustafa Jarrar, Mohammed Khalilia, Sana Ghanem
- Abstract要約: Wojoodは550K Modern Standard Arabic (MSA)と21のエンティティタイプで手動で注釈付けされた方言トークンで構成されている。
データには約75Kのエンティティが含まれ、うち22.5%がネストされている。
私たちのコーパス、アノテーションガイドライン、ソースコード、事前訓練されたモデルが公開されています。
- 参考スコア(独自算出の注目度): 1.2891210250935146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents Wojood, a corpus for Arabic nested Named Entity
Recognition (NER). Nested entities occur when one entity mention is embedded
inside another entity mention. Wojood consists of about 550K Modern Standard
Arabic (MSA) and dialect tokens that are manually annotated with 21 entity
types including person, organization, location, event and date. More
importantly, the corpus is annotated with nested entities instead of the more
common flat annotations. The data contains about 75K entities and 22.5% of
which are nested. The inter-annotator evaluation of the corpus demonstrated a
strong agreement with Cohen's Kappa of 0.979 and an F1-score of 0.976. To
validate our data, we used the corpus to train a nested NER model based on
multi-task learning and AraBERT (Arabic BERT). The model achieved an overall
micro F1-score of 0.884. Our corpus, the annotation guidelines, the source code
and the pre-trained model are publicly available.
- Abstract(参考訳): 本稿ではアラビアネスト付き名前付きエンティティ認識(NER)のためのコーパスであるWojoodについて述べる。
ネストされたエンティティは、あるエンティティの言及が別のエンティティの言及の中に埋め込まれたときに発生する。
Wojoodは、約550Kの現代標準アラビア語(MSA)と、人、組織、場所、イベント、日付を含む21のエンティティタイプを手動で注釈付けした方言トークンで構成されている。
さらに重要なことに、コーパスは、より一般的なフラットアノテーションではなく、ネストされたエンティティでアノテートされる。
データには約75Kのエンティティが含まれ、うち22.5%がネストされている。
コーパスのアノテータ間評価はコーエンのカッパ0.979とF1スコア0.976との強い一致を示した。
データの検証には,マルチタスク学習とAraBERT(アラビアBERT)に基づくネストNERモデルをトレーニングするために,コーパスを使用した。
モデル全体のマイクロf1scoreは0.884である。
私たちのコーパス、アノテーションガイドライン、ソースコード、事前訓練されたモデルが公開されています。
関連論文リスト
- Entity Disambiguation via Fusion Entity Decoding [68.77265315142296]
より詳細なエンティティ記述を持つエンティティを曖昧にするためのエンコーダ・デコーダモデルを提案する。
GERBILベンチマークでは、EntQAと比較して、エンド・ツー・エンドのエンティティリンクが+1.5%改善されている。
論文 参考訳(メタデータ) (2024-04-02T04:27:54Z) - Arabic Fine-Grained Entity Recognition [14.230912397408765]
この記事は、アラビア語のNERを粒度の細かいエンティティで前進させることを目的としている。
Wojood, geopolitical entity (GPE), location (LOC), organization (ORG), facilities (FAC)の4つの主要なエンティティタイプが31のサブタイプで拡張されている。
そこで我々はまず,GPE,LOC,ORG,FACのアノテーションをLCCのACEガイドラインに適合するように改訂した。
Wojood における GPE, LOC, ORG, FAC のすべての言及は、手動で LDC の ACE サブタイプに注釈付けされている。
論文 参考訳(メタデータ) (2023-10-26T11:59:45Z) - ANER: Arabic and Arabizi Named Entity Recognition using
Transformer-Based Approach [0.0]
本稿では、アラビア語とアラビア語のためのWebベースのエンティティ認識器であるANERを紹介する。
このモデルは変換器ベースのエンコーダであるBERT上に構築されている。
50の異なるエンティティクラスを認識でき、さまざまな分野をカバーする。
論文 参考訳(メタデータ) (2023-08-28T15:54:48Z) - People and Places of Historical Europe: Bootstrapping Annotation
Pipeline and a New Corpus of Named Entities in Late Medieval Texts [0.0]
我々はチェコ語、ラテン語、ドイツ語を中心に書かれた中世後期の憲章から3.6万文の新しいNERコーパスを開発する。
我々は、既知の歴史人物や場所のリストと、未注釈の歴史的テキストのコーパスから始めることができ、情報検索技術を用いて、NER注釈コーパスを自動的にブートストラップできることを示す。
論文 参考訳(メタデータ) (2023-05-26T08:05:01Z) - Nonparametric Masked Language Modeling [113.71921977520864]
既存の言語モデル(LM)は、有限語彙上のソフトマックスでトークンを予測する。
NPMは,このソフトマックスを参照コーパス内の各フレーズの非パラメトリック分布に置き換える最初の非パラメトリックマスク付き言語モデルである。
NPMは、コントラスト目的と全コーパス検索に対するバッチ内近似で効率的に訓練することができる。
論文 参考訳(メタデータ) (2022-12-02T18:10:42Z) - Enabling Classifiers to Make Judgements Explicitly Aligned with Human
Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。
本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-14T09:10:49Z) - Label Semantics for Few Shot Named Entity Recognition [68.01364012546402]
名前付きエンティティ認識におけるショットラーニングの問題について検討する。
我々は,ラベル名中の意味情報を,モデルに付加的な信号を与え,よりリッチな事前情報を与える手段として活用する。
本モデルは,第1エンコーダによって計算された名前付きエンティティの表現と,第2エンコーダによって計算されたラベル表現とを一致させることを学習する。
論文 参考訳(メタデータ) (2022-03-16T23:21:05Z) - KazNERD: Kazakh Named Entity Recognition Dataset [5.094176584161206]
本稿では,カザフスタンのエンティティ認識のためのデータセットの開発について述べる。
データセットは、カザフ語で公開されている注釈付きコーパスの必要性が明白であるとして構築された。
得られたデータセットには、112,702の文と、25のエンティティクラスのための136,333のアノテーションが含まれている。
論文 参考訳(メタデータ) (2021-11-26T10:56:19Z) - MobIE: A German Dataset for Named Entity Recognition, Entity Linking and
Relation Extraction in the Mobility Domain [76.21775236904185]
データセットは3,232のソーシャルメディアテキストと91Kトークンによるトラフィックレポートで構成され、20.5Kアノテーション付きエンティティを含んでいる。
データセットのサブセットには,7つのモビリティ関連,n-ary関係型がアノテートされている。
私たちの知る限りでは、NER、EL、REのアノテーションを組み合わせた最初のドイツ語データセットです。
論文 参考訳(メタデータ) (2021-08-16T08:21:50Z) - Autoregressive Entity Retrieval [55.38027440347138]
エンティティは、知識の表現と集約の方法の中心にあります。
クエリが与えられたエンティティを検索できることは、エンティティリンクやオープンドメインの質問応答のような知識集約的なタスクに基本となる。
本稿では,自己回帰方式でトークン・バイ・トークンを左から右に生成し,エンティティを検索する最初のシステムであるGENREを提案する。
論文 参考訳(メタデータ) (2020-10-02T10:13:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。