論文の概要: Comparing Open Arabic Named Entity Recognition Tools
- arxiv url: http://arxiv.org/abs/2205.05857v1
- Date: Thu, 12 May 2022 03:16:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 13:50:39.437955
- Title: Comparing Open Arabic Named Entity Recognition Tools
- Title(参考訳): Open Arabic Named Entity Recognition Toolsの比較
- Authors: Abdullah Aldumaykhi, Saad Otai, Abdulkareem Alsudais
- Abstract要約: 本研究の目的は,CAMeL,Hatmi,Stanzaの3つのオープンアラビアNERツールの性能を比較し,評価することである。
我々は、MSAで書かれた30記事からなるコーパスを収集し、その人物、組織、位置のすべてのエンティティを手動で注釈付けした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The main objective of this paper is to compare and evaluate the performances
of three open Arabic NER tools: CAMeL, Hatmi, and Stanza. We collected a corpus
consisting of 30 articles written in MSA and manually annotated all the
entities of the person, organization, and location types at the article
(document) level. Our results suggest a similarity between Stanza and Hatmi
with the latter receiving the highest F1 score for the three entity types.
However, CAMeL achieved the highest precision values for names of people and
organizations. Following this, we implemented a "merge" method that combined
the results from the three tools and a "vote" method that tagged named entities
only when two of the three identified them as entities. Our results showed that
merging achieved the highest overall F1 scores. Moreover, merging had the
highest recall values while voting had the highest precision values for the
three entity types. This indicates that merging is more suitable when recall is
desired, while voting is optimal when precision is required. Finally, we
collected a corpus of 21,635 articles related to COVID-19 and applied the merge
and vote methods. Our analysis demonstrates the tradeoff between precision and
recall for the two methods.
- Abstract(参考訳): 本研究の目的は,CAMeL,Hatmi,Stanzaの3つのオープンアラビアNERツールの性能を比較し,評価することである。
我々は、MSAで書かれた30記事からなるコーパスを収集し、記事(文書)レベルにおいて、人物、組織、場所のすべてのエンティティを手動で注釈付けした。
その結果, スタンザとハトミの類似性が示唆され, スタンザとハトミは3つのエンティティタイプで最も高いf1スコアを得た。
しかし、CAMeLは人や組織の名前の精度が最も高かった。
次に,3つのツールから得られた結果を組み合わせた"マージ"手法と,3つのうち2つがエンティティと認識した場合にのみ,名前付きエンティティをタグ付けする"ボイト"手法を実装した。
以上の結果から, 合併はF1スコアの最高値となった。
さらに、合併は最も高いリコール値を持ち、投票は3つのエンティティタイプに対して最も高い精度の値を持っていた。
これは、マージがリコールが望まれるときにより適しており、一方、投票は精度が必要なときに最適であることを示している。
最後に,新型コロナウイルス関連記事21,635件のコーパスを収集し,マージ法と投票法を適用した。
本分析は,この2つの手法の精度とリコールのトレードオフを示す。
関連論文リスト
- dzNLP at NADI 2024 Shared Task: Multi-Classifier Ensemble with Weighted Voting and TF-IDF Features [0.0]
本稿では,dzNLPチームのNADI 2024共有タスクへの貢献について述べる。
我々のアプローチは、従来の機械学習技術に頼りながら、F1スコアと精度の点で競争性能を実証した。
私たちのモデルは極めて正確でしたが、幅広い方言ラベルを思い出すのに苦労し、改善すべき重要な領域を強調しました。
論文 参考訳(メタデータ) (2024-07-18T15:47:42Z) - Entity Disambiguation via Fusion Entity Decoding [68.77265315142296]
より詳細なエンティティ記述を持つエンティティを曖昧にするためのエンコーダ・デコーダモデルを提案する。
GERBILベンチマークでは、EntQAと比較して、エンド・ツー・エンドのエンティティリンクが+1.5%改善されている。
論文 参考訳(メタデータ) (2024-04-02T04:27:54Z) - NERetrieve: Dataset for Next Generation Named Entity Recognition and
Retrieval [49.827932299460514]
我々は、大きな言語モデルによって提供される能力は、NER研究の終わりではなく、むしろエキサイティングな始まりであると主張する。
我々は、NERタスクの3つの変種と、それらをサポートするデータセットを示す。
500のエンティティタイプをカバーする400万段落の,大規模で銀の注釈付きコーパスを提供する。
論文 参考訳(メタデータ) (2023-10-22T12:23:00Z) - A Read-and-Select Framework for Zero-shot Entity Linking [33.15662306409253]
本稿では、エンティティの曖昧さの主成分をモデル化し、リード・アンド・セレクト(ReS)フレームワークを提案する。
提案手法は,確立されたゼロショットエンティティリンクデータセットであるZESHELに対して,2.55%のマイクロ平均精度向上を実現している。
論文 参考訳(メタデータ) (2023-10-19T04:08:10Z) - Evaluating the Factual Consistency of Large Language Models Through News
Summarization [97.04685401448499]
本稿では,要約タスクに着目したFIB(Factual Inconsistency Benchmark)と呼ばれる新しいベンチマークを提案する。
現実的に一貫した要約では、手作業で事実的に一貫したものとして検証する、人書きの参照要約を使用します。
現実的に矛盾しない要約に対して、我々は、事実的に矛盾しているとして手動で注釈付けした一連の要約モデルから要約を生成する。
論文 参考訳(メタデータ) (2022-11-15T18:50:34Z) - UniTE: Unified Translation Evaluation [63.58868113074476]
UniTEは3つの評価タスクをすべて処理する能力に携わる最初の統合フレームワークである。
We testify our framework on WMT 2019 Metrics and WMT 2020 Quality Estimation benchmarks。
論文 参考訳(メタデータ) (2022-04-28T08:35:26Z) - Focus on what matters: Applying Discourse Coherence Theory to Cross
Document Coreference [22.497877069528087]
ドキュメント間でのイベントとエンティティのコア参照の解決は、候補参照の数を大幅に増加させ、完全な$n2$ペアワイズ比較を行うことを難しくする。
既存のアプローチでは、ドキュメントクラスタ内でのコア参照のみを考慮することで単純化されているが、クラスタ間のコア参照を処理できない。
我々は、談話コヒーレンス理論の洞察に基づいて、潜在的コア推論は、読者の談話焦点によって制約される。
本手法は,ECB+,ガン・バイオレンス,フットボール・コアス,クロスドメイン・クロスドキュメント・コアス・コーパスにおけるイベントとエンティティの両面での最先端の成果を達成する。
論文 参考訳(メタデータ) (2021-10-11T15:41:47Z) - Exploring and Evaluating Attributes, Values, and Structures for Entity
Alignment [100.19568734815732]
エンティティアライメント(EA)は、さまざまなKGから等価なエンティティをリンクすることで、リッチコンテンツの統合知識グラフ(KG)を構築することを目的としている。
属性・トリプルは重要なアライメント信号も提供できますが、まだ十分に調査されていません。
本稿では,属性値エンコーダを用いてKGをサブグラフに分割し,属性の様々なタイプを効率的にモデル化することを提案する。
論文 参考訳(メタデータ) (2020-10-07T08:03:58Z) - Autoregressive Entity Retrieval [55.38027440347138]
エンティティは、知識の表現と集約の方法の中心にあります。
クエリが与えられたエンティティを検索できることは、エンティティリンクやオープンドメインの質問応答のような知識集約的なタスクに基本となる。
本稿では,自己回帰方式でトークン・バイ・トークンを左から右に生成し,エンティティを検索する最初のシステムであるGENREを提案する。
論文 参考訳(メタデータ) (2020-10-02T10:13:31Z) - Beheshti-NER: Persian Named Entity Recognition Using BERT [0.0]
本稿では、ペルシャ語で名前付きエンティティ認識のモデルを作成するために、事前訓練された深層双方向ネットワークBERTを使用する。
その結果,83.5 と 88.4 f1 の CONLL スコアをフレーズレベルと単語レベルで評価した。
論文 参考訳(メタデータ) (2020-03-19T15:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。