論文の概要: SemEval-2023 Task 2: Fine-grained Multilingual Named Entity Recognition
(MultiCoNER 2)
- arxiv url: http://arxiv.org/abs/2305.06586v2
- Date: Thu, 25 May 2023 17:54:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 19:57:48.023865
- Title: SemEval-2023 Task 2: Fine-grained Multilingual Named Entity Recognition
(MultiCoNER 2)
- Title(参考訳): semeval-2023 タスク2:きめ細かな多言語名エンティティ認識(multiconer 2)
- Authors: Besnik Fetahu, Sudipta Kar, Zhiyu Chen, Oleg Rokhlenko, Shervin
Malmasi
- Abstract要約: MultiCoNER 2はSemEval-2023で最も人気のあるタスクの1つである。
47チームから842名が参加し、34チームがシステム論文を提出した。
外部知識をトランスフォーマーモデルに融合させる手法は最高の性能を達成した。
いくつかのきめ細かいクラスは、SCIENTIST、ARTWORK、PRIVATECORPなど、他のクラスよりも難しいことが判明した。
- 参考スコア(独自算出の注目度): 21.033381060735874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the findings of SemEval-2023 Task 2 on Fine-grained Multilingual
Named Entity Recognition (MultiCoNER 2). Divided into 13 tracks, the task
focused on methods to identify complex fine-grained named entities (like
WRITTENWORK, VEHICLE, MUSICALGRP) across 12 languages, in both monolingual and
multilingual scenarios, as well as noisy settings. The task used the MultiCoNER
V2 dataset, composed of 2.2 million instances in Bangla, Chinese, English,
Farsi, French, German, Hindi, Italian., Portuguese, Spanish, Swedish, and
Ukrainian. MultiCoNER 2 was one of the most popular tasks of SemEval-2023. It
attracted 842 submissions from 47 teams, and 34 teams submitted system papers.
Results showed that complex entity types such as media titles and product names
were the most challenging. Methods fusing external knowledge into transformer
models achieved the best performance, and the largest gains were on the
Creative Work and Group classes, which are still challenging even with external
knowledge. Some fine-grained classes proved to be more challenging than others,
such as SCIENTIST, ARTWORK, and PRIVATECORP. We also observed that noisy data
has a significant impact on model performance, with an average drop of 10% on
the noisy subset. The task highlights the need for future research on improving
NER robustness on noisy data containing complex entities.
- Abstract(参考訳): 本稿では,SemEval-2023 Task 2の粒度多言語固有認識(MultiCoNER 2)について述べる。
13のトラックに分割されたこのタスクは、モノリンガルとマルチリンガルのシナリオとノイズの多い設定の両方において、12言語にわたる複雑な粒度のエンティティ(WRITTENWORK、VEHICLE、MUSICALGRPなど)を特定する方法に焦点を当てた。
このタスクは、バングラ、中国語、英語、ファージ、フランス語、ドイツ語、ヒンディー語、イタリア語の2200万件からなるMultiCoNER V2データセットを使用した。
ポルトガル語、スペイン語、スウェーデン語、ウクライナ語。
MultiCoNER 2はSemEval-2023で最も人気のあるタスクの1つである。
47チームから842名が参加し、34チームがシステム論文を提出した。
その結果,メディアタイトルや製品名などの複雑なエンティティタイプが最も難しかった。
トランスフォーマーモデルに外部知識を融合する手法は最高の性能を達成し、最大の成果は創造的作業とグループクラスであり、外部知識においてもなお挑戦的であった。
いくつかのきめ細かいクラスは、SCIENTIST、ARTWORK、PRIVATECORPなど、他のクラスよりも難しいことが判明した。
また,ノイズのあるデータはモデル性能に大きな影響を与え,ノイズの多い部分集合では平均10%の低下が見られた。
このタスクは、複雑なエンティティを含むノイズデータに対するnerのロバスト性を改善するための将来の研究の必要性を強調している。
関連論文リスト
- 2M-NER: Contrastive Learning for Multilingual and Multimodal NER with Language and Modal Fusion [9.038363543966263]
我々は、4つの言語(英語、フランス語、ドイツ語、スペイン語)と2つのモーダル性(テキストと画像)を持つ大規模MMNERデータセットを構築した。
2M-NERと呼ばれる新しいモデルを導入し、コントラスト学習を用いてテキストと画像の表現を整列させ、マルチモーダル協調モジュールを統合する。
比較ベースラインや代表ベースラインと比較して,多言語および多モーダルNERタスクにおいてF1スコアが最も高い。
論文 参考訳(メタデータ) (2024-04-26T02:34:31Z) - SemEval-2024 Shared Task 6: SHROOM, a Shared-task on Hallucinations and Related Observable Overgeneration Mistakes [48.83290963506378]
本稿では,幻覚検出に焦点をあてた共有タスクであるSHROOMの結果について述べる。
このアプローチをどのように取り組んだかについて、いくつかの重要なトレンドを観察します。
チームの大多数が提案したベースラインシステムより優れていますが、トップスコアシステムのパフォーマンスは依然として、より困難なアイテムのランダムなハンドリングと一致しています。
論文 参考訳(メタデータ) (2024-03-12T15:06:22Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - MultiCoNER v2: a Large Multilingual dataset for Fine-grained and Noisy
Named Entity Recognition [36.868805760086886]
i) 映画のタイトルのような複雑なエンティティを含むきめ細かいクラスを効果的に扱うこと、(ii) タイピングミスやOCRエラーから発生するノイズによる性能劣化。
データセットはWikipediaやWikidataなどのオープンリソースからコンパイルされ、公開されている。
論文 参考訳(メタデータ) (2023-10-20T01:14:46Z) - Findings of the 2023 ML-SUPERB Challenge: Pre-Training and Evaluation
over More Languages and Beyond [89.54151859266202]
2023年のMultilingual Speech Universal Performance Benchmark (ML-SUPERB) Challengeは、宣言されたSUPERBフレームワークに拡張される。
この挑戦は12のモデル提出と54の言語コーパスを集め、154の言語を含む包括的なベンチマークをもたらした。
この結果は、単にスケーリングモデルが多言語音声タスクにおける決定的な解決策ではないことを示唆している。
論文 参考訳(メタデータ) (2023-10-09T08:30:01Z) - DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System
for Multilingual Named Entity Recognition [94.90258603217008]
MultiCoNER RNum2共有タスクは、細粒度でノイズの多いシナリオにおいて、多言語の名前付きエンティティ認識(NER)に取り組むことを目的としている。
MultiCoNER RNum1の以前のトップシステムは、ナレッジベースまたはガゼッタを組み込んでいる。
細粒度多言語NERのための統一検索拡張システム(U-RaNER)を提案する。
論文 参考訳(メタデータ) (2023-05-05T16:59:26Z) - LLM-RM at SemEval-2023 Task 2: Multilingual Complex NER using
XLM-RoBERTa [13.062351454646912]
本稿では、複雑な名前付きエンティティの多言語設定におけるNERタスクの解決に焦点をあてる。
提案手法は,XLM-Roberta ベースモデルによる言語間表現を,12言語すべてのデータセット上で活用することで,この問題に対処する。
論文 参考訳(メタデータ) (2023-05-05T06:05:45Z) - KInITVeraAI at SemEval-2023 Task 3: Simple yet Powerful Multilingual
Fine-Tuning for Persuasion Techniques Detection [0.0]
本稿では,サブタスク3のSemEval 2023タスク3に対して,説得技術検出専用の最高のパフォーマンスソリューションを提案する。
入力データの多言語的特性が高く,23の予測ラベルが多数存在するため,学習前のトランスフォーマベース言語モデルに微調整を施した。
論文 参考訳(メタデータ) (2023-04-24T09:06:43Z) - IXA/Cogcomp at SemEval-2023 Task 2: Context-enriched Multilingual Named
Entity Recognition using Knowledge Bases [53.054598423181844]
3つのステップからなる新しいNERカスケードアプローチを提案する。
我々は、細粒度および新興物質を正確に分類する上で、外部知識基盤の重要性を実証的に示す。
本システムは,低リソース言語設定においても,マルチコネラ2共有タスクにおいて頑健な性能を示す。
論文 参考訳(メタデータ) (2023-04-20T20:30:34Z) - MIA 2022 Shared Task: Evaluating Cross-lingual Open-Retrieval Question
Answering for 16 Diverse Languages [54.002969723086075]
16言語に類型的に多様である言語における言語横断的オープン-検索型問合せシステムの評価を行った。
反復的にマイニングされた多様な負の例を利用する最良のシステムは32.2 F1となり、ベースラインを4.5ポイント上回る。
第2のベストシステムは文書検索にエンティティを意識した文脈表現を使用し、タミル(20.8 F1)の大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-07-02T06:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。