論文の概要: UM6P-CS at SemEval-2022 Task 11: Enhancing Multilingual and Code-Mixed
Complex Named Entity Recognition via Pseudo Labels using Multilingual
Transformer
- arxiv url: http://arxiv.org/abs/2204.13515v1
- Date: Thu, 28 Apr 2022 14:07:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-29 18:24:29.783252
- Title: UM6P-CS at SemEval-2022 Task 11: Enhancing Multilingual and Code-Mixed
Complex Named Entity Recognition via Pseudo Labels using Multilingual
Transformer
- Title(参考訳): UM6P-CS at SemEval-2022 Task 11: Enhancing Multilingual and Code-Mixed Complex Named Entity Recognition via Pseudo Labels using Multilingual Transformer (英語)
- Authors: Abdellah El Mekki and Abdelkader El Mahdaouy and Mohammed Akallouch
and Ismail Berrada and Ahmed Khoumsi
- Abstract要約: 提案手法を多言語複合名前認識(MultiCoNER)共有タスクに導入する。
我々は,多言語変換器 XLM-RoBERTa が提供する文脈化表現を頼りに,多言語およびコード混合クエリの複雑な NER にアプローチする。
提案システムは多言語とコード混在したMultiCoNERのトラックにおいて,それぞれ6位と8位にランクされている。
- 参考スコア(独自算出の注目度): 7.270980742378389
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building real-world complex Named Entity Recognition (NER) systems is a
challenging task. This is due to the complexity and ambiguity of named entities
that appear in various contexts such as short input sentences, emerging
entities, and complex entities. Besides, real-world queries are mostly
malformed, as they can be code-mixed or multilingual, among other scenarios. In
this paper, we introduce our submitted system to the Multilingual Complex Named
Entity Recognition (MultiCoNER) shared task. We approach the complex NER for
multilingual and code-mixed queries, by relying on the contextualized
representation provided by the multilingual Transformer XLM-RoBERTa. In
addition to the CRF-based token classification layer, we incorporate a span
classification loss to recognize named entities spans. Furthermore, we use a
self-training mechanism to generate weakly-annotated data from a large
unlabeled dataset. Our proposed system is ranked 6th and 8th in the
multilingual and code-mixed MultiCoNER's tracks respectively.
- Abstract(参考訳): 現実世界の複雑な名前付きエンティティ認識(NER)システムの構築は難しい作業である。
これは、短い入力文、新興エンティティ、複雑なエンティティといった様々なコンテキストに現れる名前付きエンティティの複雑さとあいまいさのためである。
さらに、実際のクエリは、コード混合や多言語化が可能なため、ほとんどが変形している。
本稿では,多言語複合型エンティティ認識(multiconer)共有タスクに提案するシステムを提案する。
我々は,多言語変換器 XLM-RoBERTa が提供する文脈化表現を頼りに,多言語およびコード混合クエリの複雑な NER にアプローチする。
CRFに基づくトークン分類層に加えて、名前付きエンティティを識別するためにスパン分類損失を組み込む。
さらに,大きなラベルなしデータセットから弱い注釈データを生成するために,自己学習機構を用いる。
提案システムは多言語とコード混在したMultiCoNERのトラックでそれぞれ6位と8位にランクされている。
関連論文リスト
- SRFUND: A Multi-Granularity Hierarchical Structure Reconstruction Benchmark in Form Understanding [55.48936731641802]
階層的に構造化されたマルチタスク形式理解ベンチマークであるSRFUNDを提案する。
SRFUNDはオリジナルのFUNSDとXFUNDデータセットの上に洗練されたアノテーションを提供する。
データセットには、英語、中国語、日本語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語を含む8つの言語が含まれている。
論文 参考訳(メタデータ) (2024-06-13T02:35:55Z) - Named Entity Recognition via Machine Reading Comprehension: A Multi-Task
Learning Approach [50.12455129619845]
Named Entity Recognition (NER) は、テキスト内のエンティティの参照を事前に定義された型に抽出し、分類することを目的としている。
我々は,MRCベースのNERを改善するために,エンティティタイプ間のラベル依存性をマルチタスク学習フレームワークに組み込むことを提案する。
論文 参考訳(メタデータ) (2023-09-20T03:15:05Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - ACLM: A Selective-Denoising based Generative Data Augmentation Approach
for Low-Resource Complex NER [47.32935969127478]
本稿では、条件付き言語モデルファインチューニングのためのACLM注意マップ対応キーワード選択について述べる。
ACLMは、既存のNERデータ拡張技術が抱える問題であるコンテキストエンティリティミスマッチ問題を緩和する。
本稿では,ACLMがモノリンガル,クロスリンガル,多言語複合NERに対して質的かつ定量的に有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T17:33:04Z) - DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System
for Multilingual Named Entity Recognition [94.90258603217008]
MultiCoNER RNum2共有タスクは、細粒度でノイズの多いシナリオにおいて、多言語の名前付きエンティティ認識(NER)に取り組むことを目的としている。
MultiCoNER RNum1の以前のトップシステムは、ナレッジベースまたはガゼッタを組み込んでいる。
細粒度多言語NERのための統一検索拡張システム(U-RaNER)を提案する。
論文 参考訳(メタデータ) (2023-05-05T16:59:26Z) - MultiCoNER: A Large-scale Multilingual dataset for Complex Named Entity
Recognition [15.805414696789796]
我々は、11言語にわたる3つのドメイン(ウィキ文、質問、検索クエリ)をカバーする、名前付きエンティティ認識のための大規模な多言語データセットであるMultiCoNERを提案する。
このデータセットは、低コンテキストシナリオを含む、NERの現代的課題を表現するように設計されている。
論文 参考訳(メタデータ) (2022-08-30T20:45:54Z) - CMNEROne at SemEval-2022 Task 11: Code-Mixed Named Entity Recognition by
leveraging multilingual data [7.538482310185133]
本稿では,SEMEVAL 2022共有タスク11 MultiCoNERへのチームCMNEROneの提出について述べる。
Code-mixed NERタスクは、コードミックスデータセット上の名前付きエンティティを特定することを目的としている。
平均F1スコアは0.7044であり,ベースラインよりも6%高かった。
論文 参考訳(メタデータ) (2022-06-15T06:33:13Z) - USTC-NELSLIP at SemEval-2022 Task 11: Gazetteer-Adapted Integration
Network for Multilingual Complex Named Entity Recognition [41.26523047041553]
本稿では,SemEval-2022 Task 11 Multilingual Complex Named Entities Recognition (MultiCoNER)のためにUSTC-NELSLIPチームが開発したシステムについて述べる。
本稿では,複雑な名前付きエンティティを認識するための言語モデルの性能向上のために,ガゼッタ適応統合ネットワーク(GAIN)を提案する。
論文 参考訳(メタデータ) (2022-03-07T09:05:37Z) - DAMO-NLP at SemEval-2022 Task 11: A Knowledge-based System for
Multilingual Named Entity Recognition [94.1865071914727]
MultiCoNERは、複数の言語に対する短文と低文設定で意味的に曖昧な名前のエンティティを検出することを目的としている。
我々のチームDAMO-NLPは知識に基づくシステムを提案し、ウィキペディアに基づく多言語知識ベースを構築する。
入力文が与えられた場合,本システムは知識ベースから関連コンテキストを効果的に検索する。
我々のシステムはMultiCoNER共有タスクで13トラック中10トラックを獲得した。
論文 参考訳(メタデータ) (2022-03-01T15:29:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。