論文の概要: Arabic Fine-Grained Entity Recognition
- arxiv url: http://arxiv.org/abs/2310.17333v2
- Date: Mon, 18 Dec 2023 18:55:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 22:24:43.438965
- Title: Arabic Fine-Grained Entity Recognition
- Title(参考訳): アラビア細粒実体認識
- Authors: Haneen Liqreina, Mustafa Jarrar, Mohammed Khalilia, Ahmed Oumar
El-Shangiti, Muhammad Abdul-Mageed
- Abstract要約: この記事は、アラビア語のNERを粒度の細かいエンティティで前進させることを目的としている。
Wojood, geopolitical entity (GPE), location (LOC), organization (ORG), facilities (FAC)の4つの主要なエンティティタイプが31のサブタイプで拡張されている。
そこで我々はまず,GPE,LOC,ORG,FACのアノテーションをLCCのACEガイドラインに適合するように改訂した。
Wojood における GPE, LOC, ORG, FAC のすべての言及は、手動で LDC の ACE サブタイプに注釈付けされている。
- 参考スコア(独自算出の注目度): 14.230912397408765
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Traditional NER systems are typically trained to recognize coarse-grained
entities, and less attention is given to classifying entities into a hierarchy
of fine-grained lower-level subtypes. This article aims to advance Arabic NER
with fine-grained entities. We chose to extend Wojood (an open-source Nested
Arabic Named Entity Corpus) with subtypes. In particular, four main entity
types in Wojood, geopolitical entity (GPE), location (LOC), organization (ORG),
and facility (FAC), are extended with 31 subtypes. To do this, we first revised
Wojood's annotations of GPE, LOC, ORG, and FAC to be compatible with the LDC's
ACE guidelines, which yielded 5, 614 changes. Second, all mentions of GPE, LOC,
ORG, and FAC (~44K) in Wojood are manually annotated with the LDC's ACE
sub-types. We refer to this extended version of Wojood as WojoodF ine. To
evaluate our annotations, we measured the inter-annotator agreement (IAA) using
both Cohen's Kappa and F1 score, resulting in 0.9861 and 0.9889, respectively.
To compute the baselines of WojoodF ine, we fine-tune three pre-trained Arabic
BERT encoders in three settings: flat NER, nested NER and nested NER with
subtypes and achieved F1 score of 0.920, 0.866, and 0.885, respectively. Our
corpus and models are open-source and available at
https://sina.birzeit.edu/wojood/.
- Abstract(参考訳): 従来のNERシステムは通常、粗粒度を認識できるように訓練されており、より細粒度の低いサブタイプの階層にエンティティを分類することにはあまり注意を払わない。
この記事は、アラビア語のNERを粒度の細かいエンティティで前進させることを目的としている。
私たちはWojood(オープンソースのNested Arabic Named Entity Corpus)をサブタイプで拡張することにしました。
特に、wojood, geopolitical entity (gpe), location (loc), organization (org), facility (fac)の4つの主要なエンティティタイプが31のサブタイプで拡張されている。
そこで我々はまず, GPE, LOC, ORG, FAC の Wojood アノテーションを LDC の ACE ガイドラインに適合するように改訂した。
第二に、Wojood における GPE, LOC, ORG, FAC (~44K) のすべての言及は、LCC の ACE サブタイプで手動で注釈付けされている。
我々はWojoodのこの拡張バージョンをWojoodF ineと呼んでいる。
アノテーションを評価するため,CohenのKappaとF1のスコアを用いてIAA(inter-annotator agreement)を測定し,それぞれ0.9861と0.9889を得た。
WojoodF ineのベースラインを計算するために、フラットNER、ネストNER、ネストNERの3つの設定で事前訓練された3つのアラビアBERTエンコーダを微調整し、それぞれ0.920、0.866、0.885のF1スコアを得た。
私たちのコーパスとモデルはオープンソースであり、https://sina.birzeit.edu/wojood/で利用可能です。
関連論文リスト
- mucAI at WojoodNER 2024: Arabic Named Entity Recognition with Nearest Neighbor Search [0.0]
我々は、Wojood NER Shared Task 2024(アラビア語NLP 2024)へのアラビア語KNN-NERの導入について紹介する。
本稿では,アラビア文字の細粒度平坦度認識に取り組み,各単語の1つの主実体とおそらく0または複数のサブエンティティを識別する。
我々の提出は、WojoodFineデータセット上でのテストセットで91%を獲得し、アラビア語のKNN-NERを共有タスクのリーダーボードの上に配置しました。
論文 参考訳(メタデータ) (2024-08-07T09:34:55Z) - WojoodNER 2024: The Second Arabic Named Entity Recognition Shared Task [13.55190646427114]
WojoodNER-2024は、(i)クローズド・トラック・フラット・ファイン・グラインド・NER、(ii)クローズド・トラック・ネスト・ファイン・グラインド・NER、(iii)イスラエル・ガザ戦争のためのオープン・トラック・NERの3つのサブタスクを含んでいた。
優勝チームはF-1得点を91%、Nested Fine-Grained Subtasksで92%とした。
論文 参考訳(メタデータ) (2024-07-13T16:17:08Z) - BOOST: Harnessing Black-Box Control to Boost Commonsense in LMs'
Generation [60.77990074569754]
本稿では,凍結した事前学習言語モデルを,より汎用的な生成に向けて操る,計算効率のよいフレームワークを提案する。
具体的には、まず、文に常識的スコアを割り当てる参照なし評価器を構築する。
次に、スコアラをコモンセンス知識のオラクルとして使用し、NADOと呼ばれる制御可能な生成法を拡張して補助ヘッドを訓練する。
論文 参考訳(メタデータ) (2023-10-25T23:32:12Z) - NERetrieve: Dataset for Next Generation Named Entity Recognition and
Retrieval [49.827932299460514]
我々は、大きな言語モデルによって提供される能力は、NER研究の終わりではなく、むしろエキサイティングな始まりであると主張する。
我々は、NERタスクの3つの変種と、それらをサポートするデータセットを示す。
500のエンティティタイプをカバーする400万段落の,大規模で銀の注釈付きコーパスを提供する。
論文 参考訳(メタデータ) (2023-10-22T12:23:00Z) - ANER: Arabic and Arabizi Named Entity Recognition using
Transformer-Based Approach [0.0]
本稿では、アラビア語とアラビア語のためのWebベースのエンティティ認識器であるANERを紹介する。
このモデルは変換器ベースのエンコーダであるBERT上に構築されている。
50の異なるエンティティクラスを認識でき、さまざまな分野をカバーする。
論文 参考訳(メタデータ) (2023-08-28T15:54:48Z) - Recall, Expand and Multi-Candidate Cross-Encode: Fast and Accurate
Ultra-Fine Entity Typing [46.85183839946139]
State-of-the-art(SOTA)メソッドは、クロスエンコーダ(CE)ベースのアーキテクチャを使用する。
我々は、MCCEと呼ばれる新しいモデルを用いて、これらのK候補を同時に符号化し、スコア付けする。
また,MCCEは細粒度 (130型) と粗粒度 (9型) のエンティティタイピングに非常に有効であることがわかった。
論文 参考訳(メタデータ) (2022-12-18T16:42:52Z) - Optimizing Bi-Encoder for Named Entity Recognition via Contrastive
Learning [80.36076044023581]
名前付きエンティティ認識(NER)のための効率的なバイエンコーダフレームワークを提案する。
我々はNERを、エンティティ参照のベクトル表現とその型との類似性を最大化する計量学習問題とみなす。
NERのこのバイエンコーダの定式化における大きな課題は、エンティティの言及から非エンゲージスを分離することにある。
論文 参考訳(メタデータ) (2022-08-30T23:19:04Z) - Wojood: Nested Arabic Named Entity Corpus and Recognition using BERT [1.2891210250935146]
Wojoodは550K Modern Standard Arabic (MSA)と21のエンティティタイプで手動で注釈付けされた方言トークンで構成されている。
データには約75Kのエンティティが含まれ、うち22.5%がネストされている。
私たちのコーパス、アノテーションガイドライン、ソースコード、事前訓練されたモデルが公開されています。
論文 参考訳(メタデータ) (2022-05-19T16:06:49Z) - Generalized Funnelling: Ensemble Learning and Heterogeneous Document
Embeddings for Cross-Lingual Text Classification [78.83284164605473]
emphFunnelling (Fun)は、最近提案された言語間テキスト分類手法である。
Emph Generalized Funnelling (gFun) はFunの一般化である。
gFunは、Funや最先端のベースラインよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-09-17T23:33:04Z) - MobIE: A German Dataset for Named Entity Recognition, Entity Linking and
Relation Extraction in the Mobility Domain [76.21775236904185]
データセットは3,232のソーシャルメディアテキストと91Kトークンによるトラフィックレポートで構成され、20.5Kアノテーション付きエンティティを含んでいる。
データセットのサブセットには,7つのモビリティ関連,n-ary関係型がアノテートされている。
私たちの知る限りでは、NER、EL、REのアノテーションを組み合わせた最初のドイツ語データセットです。
論文 参考訳(メタデータ) (2021-08-16T08:21:50Z) - Automatic Difficulty Classification of Arabic Sentences [0.0]
3方向cefr分類の精度はアラビア語-bert分類では0.80, xlm-r分類では0.75, 回帰では0.71スピアマン相関である。
我々は,異なる種類の文埋め込み(fastText, mBERT, XLM-R, Arabic-BERT)とPOSタグ, 依存性木, 可読性スコア, 言語学習者の頻度リストなど,従来の言語機能との比較を行った。
論文 参考訳(メタデータ) (2021-03-07T16:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。