論文の概要: MultiCoNER v2: a Large Multilingual dataset for Fine-grained and Noisy
Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2310.13213v1
- Date: Fri, 20 Oct 2023 01:14:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 00:53:58.822343
- Title: MultiCoNER v2: a Large Multilingual dataset for Fine-grained and Noisy
Named Entity Recognition
- Title(参考訳): MultiCoNER v2: 微細でノイズの多いエンティティ認識のための大規模多言語データセット
- Authors: Besnik Fetahu, Zhiyu Chen, Sudipta Kar, Oleg Rokhlenko, Shervin
Malmasi
- Abstract要約: i) 映画のタイトルのような複雑なエンティティを含むきめ細かいクラスを効果的に扱うこと、(ii) タイピングミスやOCRエラーから発生するノイズによる性能劣化。
データセットはWikipediaやWikidataなどのオープンリソースからコンパイルされ、公開されている。
- 参考スコア(独自算出の注目度): 36.868805760086886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MULTICONER V2, a dataset for fine-grained Named Entity Recognition
covering 33 entity classes across 12 languages, in both monolingual and
multilingual settings. This dataset aims to tackle the following practical
challenges in NER: (i) effective handling of fine-grained classes that include
complex entities like movie titles, and (ii) performance degradation due to
noise generated from typing mistakes or OCR errors. The dataset is compiled
from open resources like Wikipedia and Wikidata, and is publicly available.
Evaluation based on the XLM-RoBERTa baseline highlights the unique challenges
posed by MULTICONER V2: (i) the fine-grained taxonomy is challenging, where the
scores are low with macro-F1=0.63 (across all languages), and (ii) the
corruption strategy significantly impairs performance, with entity corruption
resulting in 9% lower performance relative to non-entity corruptions across all
languages. This highlights the greater impact of entity noise in contrast to
context noise.
- Abstract(参考訳): 我々は12言語にまたがる33のエンティティクラスをカバーする,詳細な名前付きエンティティ認識のためのデータセットであるmulticoner v2を提案する。
このデータセットは、NERにおける以下の実践的な課題に取り組むことを目的としている。
(i)映画タイトル等の複雑な実体を含む細粒度クラスの効果的な取扱い
(2)入力ミスやOCRエラーによるノイズによる性能劣化。
データセットはWikipediaやWikidataなどのオープンリソースからコンパイルされ、公開されている。
XLM-RoBERTaベースラインに基づく評価は、 MultiCONER V2 による固有の課題を強調している。
(i)細粒度分類は、マクロf1=0.63(すべての言語にまたがる)のスコアが低いため、難しい。
(II) 汚職戦略は性能を著しく損なうが, エンティティの汚職は全ての言語で不当な汚職と比較して9%低い結果となった。
これはコンテキストノイズと対照的にエンティティノイズの影響が大きいことを強調する。
関連論文リスト
- Beyond Boundaries: Learning a Universal Entity Taxonomy across Datasets and Languages for Open Named Entity Recognition [40.23783832224238]
我々は,Open NERの凝集性および効率的なデータセットであるB2NERDを提案する。
データセット間の一貫性のないエンティティ定義を検出し,識別可能なラベル名を用いて識別し,400以上のエンティティタイプを普遍的に分類する。
我々のB2NERモデルは、B2NERDでトレーニングされ、GPT-4を6.8-12.0 F1ポイント上回っており、15のデータセットと6つの言語にわたる3つのドメイン外のベンチマークで、以前のメソッドを上回っています。
論文 参考訳(メタデータ) (2024-06-17T03:57:35Z) - ACLM: A Selective-Denoising based Generative Data Augmentation Approach
for Low-Resource Complex NER [47.32935969127478]
本稿では、条件付き言語モデルファインチューニングのためのACLM注意マップ対応キーワード選択について述べる。
ACLMは、既存のNERデータ拡張技術が抱える問題であるコンテキストエンティリティミスマッチ問題を緩和する。
本稿では,ACLMがモノリンガル,クロスリンガル,多言語複合NERに対して質的かつ定量的に有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T17:33:04Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System
for Multilingual Named Entity Recognition [94.90258603217008]
MultiCoNER RNum2共有タスクは、細粒度でノイズの多いシナリオにおいて、多言語の名前付きエンティティ認識(NER)に取り組むことを目的としている。
MultiCoNER RNum1の以前のトップシステムは、ナレッジベースまたはガゼッタを組み込んでいる。
細粒度多言語NERのための統一検索拡張システム(U-RaNER)を提案する。
論文 参考訳(メタデータ) (2023-05-05T16:59:26Z) - IXA/Cogcomp at SemEval-2023 Task 2: Context-enriched Multilingual Named
Entity Recognition using Knowledge Bases [53.054598423181844]
3つのステップからなる新しいNERカスケードアプローチを提案する。
我々は、細粒度および新興物質を正確に分類する上で、外部知識基盤の重要性を実証的に示す。
本システムは,低リソース言語設定においても,マルチコネラ2共有タスクにおいて頑健な性能を示す。
論文 参考訳(メタデータ) (2023-04-20T20:30:34Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - MultiCoNER: A Large-scale Multilingual dataset for Complex Named Entity
Recognition [15.805414696789796]
我々は、11言語にわたる3つのドメイン(ウィキ文、質問、検索クエリ)をカバーする、名前付きエンティティ認識のための大規模な多言語データセットであるMultiCoNERを提案する。
このデータセットは、低コンテキストシナリオを含む、NERの現代的課題を表現するように設計されている。
論文 参考訳(メタデータ) (2022-08-30T20:45:54Z) - An Open-Source Dataset and A Multi-Task Model for Malay Named Entity
Recognition [3.511753382329252]
マレーNERデータセット(MYNER)を28,991文(384万個以上)で構築する。
NERトレーニングを明示的かつ暗黙的に改善するために、補助的なタスクである境界検出が導入されている。
論文 参考訳(メタデータ) (2021-09-03T03:29:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。