論文の概要: SemEval-2023 Task 2: Fine-grained Multilingual Named Entity Recognition
(MultiCoNER 2)
- arxiv url: http://arxiv.org/abs/2305.06586v2
- Date: Thu, 25 May 2023 17:54:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 19:57:48.023865
- Title: SemEval-2023 Task 2: Fine-grained Multilingual Named Entity Recognition
(MultiCoNER 2)
- Title(参考訳): semeval-2023 タスク2:きめ細かな多言語名エンティティ認識(multiconer 2)
- Authors: Besnik Fetahu, Sudipta Kar, Zhiyu Chen, Oleg Rokhlenko, Shervin
Malmasi
- Abstract要約: MultiCoNER 2はSemEval-2023で最も人気のあるタスクの1つである。
47チームから842名が参加し、34チームがシステム論文を提出した。
外部知識をトランスフォーマーモデルに融合させる手法は最高の性能を達成した。
いくつかのきめ細かいクラスは、SCIENTIST、ARTWORK、PRIVATECORPなど、他のクラスよりも難しいことが判明した。
- 参考スコア(独自算出の注目度): 21.033381060735874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the findings of SemEval-2023 Task 2 on Fine-grained Multilingual
Named Entity Recognition (MultiCoNER 2). Divided into 13 tracks, the task
focused on methods to identify complex fine-grained named entities (like
WRITTENWORK, VEHICLE, MUSICALGRP) across 12 languages, in both monolingual and
multilingual scenarios, as well as noisy settings. The task used the MultiCoNER
V2 dataset, composed of 2.2 million instances in Bangla, Chinese, English,
Farsi, French, German, Hindi, Italian., Portuguese, Spanish, Swedish, and
Ukrainian. MultiCoNER 2 was one of the most popular tasks of SemEval-2023. It
attracted 842 submissions from 47 teams, and 34 teams submitted system papers.
Results showed that complex entity types such as media titles and product names
were the most challenging. Methods fusing external knowledge into transformer
models achieved the best performance, and the largest gains were on the
Creative Work and Group classes, which are still challenging even with external
knowledge. Some fine-grained classes proved to be more challenging than others,
such as SCIENTIST, ARTWORK, and PRIVATECORP. We also observed that noisy data
has a significant impact on model performance, with an average drop of 10% on
the noisy subset. The task highlights the need for future research on improving
NER robustness on noisy data containing complex entities.
- Abstract(参考訳): 本稿では,SemEval-2023 Task 2の粒度多言語固有認識(MultiCoNER 2)について述べる。
13のトラックに分割されたこのタスクは、モノリンガルとマルチリンガルのシナリオとノイズの多い設定の両方において、12言語にわたる複雑な粒度のエンティティ(WRITTENWORK、VEHICLE、MUSICALGRPなど)を特定する方法に焦点を当てた。
このタスクは、バングラ、中国語、英語、ファージ、フランス語、ドイツ語、ヒンディー語、イタリア語の2200万件からなるMultiCoNER V2データセットを使用した。
ポルトガル語、スペイン語、スウェーデン語、ウクライナ語。
MultiCoNER 2はSemEval-2023で最も人気のあるタスクの1つである。
47チームから842名が参加し、34チームがシステム論文を提出した。
その結果,メディアタイトルや製品名などの複雑なエンティティタイプが最も難しかった。
トランスフォーマーモデルに外部知識を融合する手法は最高の性能を達成し、最大の成果は創造的作業とグループクラスであり、外部知識においてもなお挑戦的であった。
いくつかのきめ細かいクラスは、SCIENTIST、ARTWORK、PRIVATECORPなど、他のクラスよりも難しいことが判明した。
また,ノイズのあるデータはモデル性能に大きな影響を与え,ノイズの多い部分集合では平均10%の低下が見られた。
このタスクは、複雑なエンティティを含むノイズデータに対するnerのロバスト性を改善するための将来の研究の必要性を強調している。
関連論文リスト
- DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System
for Multilingual Named Entity Recognition [94.90258603217008]
MultiCoNER RNum2共有タスクは、細粒度でノイズの多いシナリオにおいて、多言語の名前付きエンティティ認識(NER)に取り組むことを目的としている。
MultiCoNER RNum1の以前のトップシステムは、ナレッジベースまたはガゼッタを組み込んでいる。
細粒度多言語NERのための統一検索拡張システム(U-RaNER)を提案する。
論文 参考訳(メタデータ) (2023-05-05T16:59:26Z) - LLM-RM at SemEval-2023 Task 2: Multilingual Complex NER using
XLM-RoBERTa [13.062351454646912]
本稿では、複雑な名前付きエンティティの多言語設定におけるNERタスクの解決に焦点をあてる。
提案手法は,XLM-Roberta ベースモデルによる言語間表現を,12言語すべてのデータセット上で活用することで,この問題に対処する。
論文 参考訳(メタデータ) (2023-05-05T06:05:45Z) - KInITVeraAI at SemEval-2023 Task 3: Simple yet Powerful Multilingual
Fine-Tuning for Persuasion Techniques Detection [0.0]
本稿では,サブタスク3のSemEval 2023タスク3に対して,説得技術検出専用の最高のパフォーマンスソリューションを提案する。
入力データの多言語的特性が高く,23の予測ラベルが多数存在するため,学習前のトランスフォーマベース言語モデルに微調整を施した。
論文 参考訳(メタデータ) (2023-04-24T09:06:43Z) - IXA/Cogcomp at SemEval-2023 Task 2: Context-enriched Multilingual Named
Entity Recognition using Knowledge Bases [53.054598423181844]
3つのステップからなる新しいNERカスケードアプローチを提案する。
我々は、細粒度および新興物質を正確に分類する上で、外部知識基盤の重要性を実証的に示す。
本システムは,低リソース言語設定においても,マルチコネラ2共有タスクにおいて頑健な性能を示す。
論文 参考訳(メタデータ) (2023-04-20T20:30:34Z) - Enhancing Model Performance in Multilingual Information Retrieval with
Comprehensive Data Engineering Techniques [10.57012904999091]
我々は、MIRACLデータセットを用いて、事前訓練された多言語トランスフォーマーベースモデルを微調整する。
モデルの改善は主に、多様なデータエンジニアリング技術によって達成されます。
我々はSurprise-Languagesトラックで2位、Known-Languagesトラックで0.835位、3位、NDCG@10スコアで16の既知の言語で平均0.716位を確保した。
論文 参考訳(メタデータ) (2023-02-14T12:37:32Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - MIA 2022 Shared Task: Evaluating Cross-lingual Open-Retrieval Question
Answering for 16 Diverse Languages [54.002969723086075]
16言語に類型的に多様である言語における言語横断的オープン-検索型問合せシステムの評価を行った。
反復的にマイニングされた多様な負の例を利用する最良のシステムは32.2 F1となり、ベースラインを4.5ポイント上回る。
第2のベストシステムは文書検索にエンティティを意識した文脈表現を使用し、タミル(20.8 F1)の大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-07-02T06:54:10Z) - CMNEROne at SemEval-2022 Task 11: Code-Mixed Named Entity Recognition by
leveraging multilingual data [7.538482310185133]
本稿では,SEMEVAL 2022共有タスク11 MultiCoNERへのチームCMNEROneの提出について述べる。
Code-mixed NERタスクは、コードミックスデータセット上の名前付きエンティティを特定することを目的としている。
平均F1スコアは0.7044であり,ベースラインよりも6%高かった。
論文 参考訳(メタデータ) (2022-06-15T06:33:13Z) - DAMO-NLP at SemEval-2022 Task 11: A Knowledge-based System for
Multilingual Named Entity Recognition [94.1865071914727]
MultiCoNERは、複数の言語に対する短文と低文設定で意味的に曖昧な名前のエンティティを検出することを目的としている。
我々のチームDAMO-NLPは知識に基づくシステムを提案し、ウィキペディアに基づく多言語知識ベースを構築する。
入力文が与えられた場合,本システムは知識ベースから関連コンテキストを効果的に検索する。
我々のシステムはMultiCoNER共有タスクで13トラック中10トラックを獲得した。
論文 参考訳(メタデータ) (2022-03-01T15:29:35Z) - UPB at SemEval-2020 Task 9: Identifying Sentiment in Code-Mixed Social
Media Texts using Transformers and Multi-Task Learning [1.7196613099537055]
本研究チームは,SemEval-2020 Task 9のために開発したシステムについて述べる。
私たちは、ヒンディー語とスペイン語の2つのよく知られた混成言語をカバーすることを目指しています。
提案手法は, 平均F1スコアが0.6850であるヒンディー語タスクにおいて, 有望な性能を達成する。
スペイン語と英語のタスクでは、29人中17人として、平均で0.7064のF1スコアを獲得しました。
論文 参考訳(メタデータ) (2020-09-06T17:19:18Z) - SIGMORPHON 2020 Shared Task 0: Typologically Diverse Morphological
Inflection [81.85463892070085]
形態的回帰に関するSIGMORPHON 2020の課題は、型的に異なる言語にまたがるシステムの一般化能力を調査することを目的としている。
システムは45言語と5つの言語ファミリーのデータを使用して開発され、追加の45言語と10の言語ファミリー(合計13言語)のデータで微調整され、90言語すべてで評価された。
論文 参考訳(メタデータ) (2020-06-20T13:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。