論文の概要: Comparing Open Arabic Named Entity Recognition Tools
- arxiv url: http://arxiv.org/abs/2205.05857v1
- Date: Thu, 12 May 2022 03:16:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 13:50:39.437955
- Title: Comparing Open Arabic Named Entity Recognition Tools
- Title(参考訳): Open Arabic Named Entity Recognition Toolsの比較
- Authors: Abdullah Aldumaykhi, Saad Otai, Abdulkareem Alsudais
- Abstract要約: 本研究の目的は,CAMeL,Hatmi,Stanzaの3つのオープンアラビアNERツールの性能を比較し,評価することである。
我々は、MSAで書かれた30記事からなるコーパスを収集し、その人物、組織、位置のすべてのエンティティを手動で注釈付けした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The main objective of this paper is to compare and evaluate the performances
of three open Arabic NER tools: CAMeL, Hatmi, and Stanza. We collected a corpus
consisting of 30 articles written in MSA and manually annotated all the
entities of the person, organization, and location types at the article
(document) level. Our results suggest a similarity between Stanza and Hatmi
with the latter receiving the highest F1 score for the three entity types.
However, CAMeL achieved the highest precision values for names of people and
organizations. Following this, we implemented a "merge" method that combined
the results from the three tools and a "vote" method that tagged named entities
only when two of the three identified them as entities. Our results showed that
merging achieved the highest overall F1 scores. Moreover, merging had the
highest recall values while voting had the highest precision values for the
three entity types. This indicates that merging is more suitable when recall is
desired, while voting is optimal when precision is required. Finally, we
collected a corpus of 21,635 articles related to COVID-19 and applied the merge
and vote methods. Our analysis demonstrates the tradeoff between precision and
recall for the two methods.
- Abstract(参考訳): 本研究の目的は,CAMeL,Hatmi,Stanzaの3つのオープンアラビアNERツールの性能を比較し,評価することである。
我々は、MSAで書かれた30記事からなるコーパスを収集し、記事(文書)レベルにおいて、人物、組織、場所のすべてのエンティティを手動で注釈付けした。
その結果, スタンザとハトミの類似性が示唆され, スタンザとハトミは3つのエンティティタイプで最も高いf1スコアを得た。
しかし、CAMeLは人や組織の名前の精度が最も高かった。
次に,3つのツールから得られた結果を組み合わせた"マージ"手法と,3つのうち2つがエンティティと認識した場合にのみ,名前付きエンティティをタグ付けする"ボイト"手法を実装した。
以上の結果から, 合併はF1スコアの最高値となった。
さらに、合併は最も高いリコール値を持ち、投票は3つのエンティティタイプに対して最も高い精度の値を持っていた。
これは、マージがリコールが望まれるときにより適しており、一方、投票は精度が必要なときに最適であることを示している。
最後に,新型コロナウイルス関連記事21,635件のコーパスを収集し,マージ法と投票法を適用した。
本分析は,この2つの手法の精度とリコールのトレードオフを示す。
関連論文リスト
- Integrating Rankings into Quantized Scores in Peer Review [61.27794774537103]
ピアレビューでは、レビュアーは通常、論文のスコアを提供するように求められます。
この問題を軽減するため、カンファレンスはレビュアーにレビューした論文のランキングを付加するように求め始めている。
このランキング情報を使用するための標準的な手順はなく、エリアチェアは異なる方法でそれを使用することができる。
我々は、ランキング情報をスコアに組み込むために、原則化されたアプローチを取る。
論文 参考訳(メタデータ) (2022-04-05T19:39:13Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - Nested Named Entity Recognition as Latent Lexicalized Constituency
Parsing [29.705133932275892]
最近(Fu et al, 2021)は、ネストされたNERに取り組むために、スパンベースの選挙区に適応している。
本研究では, より表現力のある構造, 語彙化された選挙区木を用いて, 成分がキーワードでアノテートされる。
我々はアイズナー・サッタのアルゴリズムを有効活用し,部分的辺縁化と推論を効率的に行う。
論文 参考訳(メタデータ) (2022-03-09T12:02:59Z) - Deep Reinforcement Learning for Entity Alignment [25.78510840144251]
強化学習(RL)に基づくエンティティアライメントフレームワークを提案する。
ほとんどの埋め込みベースのエンティティアライメントメソッドに柔軟に適用できる。
いくつかの最先端メソッドのパフォーマンスを継続的に向上し、Hits@1で最大31.1%向上した。
論文 参考訳(メタデータ) (2022-03-07T11:49:40Z) - Focus on what matters: Applying Discourse Coherence Theory to Cross
Document Coreference [22.497877069528087]
ドキュメント間でのイベントとエンティティのコア参照の解決は、候補参照の数を大幅に増加させ、完全な$n2$ペアワイズ比較を行うことを難しくする。
既存のアプローチでは、ドキュメントクラスタ内でのコア参照のみを考慮することで単純化されているが、クラスタ間のコア参照を処理できない。
我々は、談話コヒーレンス理論の洞察に基づいて、潜在的コア推論は、読者の談話焦点によって制約される。
本手法は,ECB+,ガン・バイオレンス,フットボール・コアス,クロスドメイン・クロスドキュメント・コアス・コーパスにおけるイベントとエンティティの両面での最先端の成果を達成する。
論文 参考訳(メタデータ) (2021-10-11T15:41:47Z) - Pack Together: Entity and Relation Extraction with Levitated Marker [61.232174424421025]
エンコーダにマーカを戦略的にパッケージ化することにより,スパン(ペア)間の依存関係を検討するために,Packed Levitated Markersという新しいスパン表現手法を提案する。
実験の結果,3つの平坦なNERタスクにおいて,有望なマーカーが充填されたモデルの方がシーケンスラベルモデルよりも0.4%-1.9%優れ,トークンコンキャットモデルを6つのNERベンチマークで上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-13T15:38:13Z) - CAP-Net: Correspondence-Aware Point-view Fusion Network for 3D Shape
Analysis [80.27460721735828]
対応型ポイントビューフュージョンネット(CAPNet)を提案する。
CAP-Netのコア要素はCAF(Cor correspondingence-Aware Fusion)と呼ばれるモジュールである。
CAFは2つのモードの局所的な特徴を対応スコアに基づいて統合する。
論文 参考訳(メタデータ) (2021-09-03T03:23:27Z) - MobIE: A German Dataset for Named Entity Recognition, Entity Linking and
Relation Extraction in the Mobility Domain [76.21775236904185]
データセットは3,232のソーシャルメディアテキストと91Kトークンによるトラフィックレポートで構成され、20.5Kアノテーション付きエンティティを含んでいる。
データセットのサブセットには,7つのモビリティ関連,n-ary関係型がアノテートされている。
私たちの知る限りでは、NER、EL、REのアノテーションを組み合わせた最初のドイツ語データセットです。
論文 参考訳(メタデータ) (2021-08-16T08:21:50Z) - BoningKnife: Joint Entity Mention Detection and Typing for Nested NER
via prior Boundary Knowledge [1.5149438988761574]
ネストされたNER抽出および認識タスクをよりよく扱うために,境界知識(BoningKnife)を介して検出およびタイピングモデルに言及する共同エンティティを提案する。
BoningKnifeはMentionTaggerとTypeClassifierの2つのモジュールで構成されている。
異なるデータセットに対する実験により、我々の手法は従来の手法よりも優れており、ACE2004、ACE2005、NNEの86.41、85.46、94.2のF1スコアが達成されている。
論文 参考訳(メタデータ) (2021-07-20T11:44:36Z) - Rethinking Space-Time Networks with Improved Memory Coverage for
Efficient Video Object Segmentation [68.45737688496654]
各オブジェクトのマスク特徴を再エンコードすることなく,フレーム間の直接対応性を確立する。
対応によって、現在のクエリフレーム内の全てのノードは、過去の特徴を連想的に集約することによって推測される。
すべてのメモリノードにコントリビュートする機会があることを検証し、そのような多彩な投票がメモリ効率と推論精度の両方に有益であることを示した。
論文 参考訳(メタデータ) (2021-06-09T16:50:57Z) - Text Summarization of Czech News Articles Using Named Entities [0.0]
我々はチェコのニュース記事の要約に名前付きエンティティが与える影響に注目した。
本論文では, 実体と生成されたサマリ間の名前付きエンティティの重なりを計測する新しいメトリック ROUGE_NE を提案する。
要約システムが高いスコアに達することは依然として困難であることを示す。
論文 参考訳(メタデータ) (2021-04-21T10:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。