論文の概要: An Open-Source Dataset and A Multi-Task Model for Malay Named Entity
Recognition
- arxiv url: http://arxiv.org/abs/2109.01293v1
- Date: Fri, 3 Sep 2021 03:29:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-06 14:02:10.294170
- Title: An Open-Source Dataset and A Multi-Task Model for Malay Named Entity
Recognition
- Title(参考訳): オープンソースデータセットとマルチタスクモデルによるマレー名前付きエンティティ認識
- Authors: Yingwen Fu and Nankai Lin and Zhihe Yang and Shengyi Jiang
- Abstract要約: マレーNERデータセット(MYNER)を28,991文(384万個以上)で構築する。
NERトレーニングを明示的かつ暗黙的に改善するために、補助的なタスクである境界検出が導入されている。
- 参考スコア(独自算出の注目度): 3.511753382329252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Named entity recognition (NER) is a fundamental task of natural language
processing (NLP). However, most state-of-the-art research is mainly oriented to
high-resource languages such as English and has not been widely applied to
low-resource languages. In Malay language, relevant NER resources are limited.
In this work, we propose a dataset construction framework, which is based on
labeled datasets of homologous languages and iterative optimization, to build a
Malay NER dataset (MYNER) comprising 28,991 sentences (over 384 thousand
tokens). Additionally, to better integrate boundary information for NER, we
propose a multi-task (MT) model with a bidirectional revision (Bi-revision)
mechanism for Malay NER task. Specifically, an auxiliary task, boundary
detection, is introduced to improve NER training in both explicit and implicit
ways. Furthermore, a gated ignoring mechanism is proposed to conduct
conditional label transfer and alleviate error propagation by the auxiliary
task. Experimental results demonstrate that our model achieves comparable
results over baselines on MYNER. The dataset and the model in this paper would
be publicly released as a benchmark dataset.
- Abstract(参考訳): 名前付きエンティティ認識(NER)は自然言語処理(NLP)の基本課題である。
しかし、ほとんどの最先端の研究は、主に英語のような高リソース言語を指向しており、低リソース言語に広く適用されていない。
マレー語では、関連するNERリソースは限られている。
本研究では,同義語のラベル付きデータセットと反復最適化に基づくデータセット構築フレームワークを提案し,28,991文(384万トークン以上)からなるMYNERデータセット(MYNER)を構築する。
さらに,NERにおける境界情報をよりよく統合するために,マレーNERタスクの双方向リビジョン機構を備えたマルチタスク(MT)モデルを提案する。
具体的には,NERトレーニングを明示的かつ暗黙的に改善するために,境界検出という補助的タスクを導入する。
さらに,条件ラベル転送を行い,補助タスクによる誤り伝播を緩和するために,ゲート無視機構を提案する。
実験により,本モデルがMYNERのベースラインよりも高い結果が得られることが示された。
この論文のデータセットとモデルは、ベンチマークデータセットとして公開されます。
関連論文リスト
- GEIC: Universal and Multilingual Named Entity Recognition with Large Language Models [7.714969840571947]
ジェネレーションベース抽出とテキスト内分類(GEIC)の課題について紹介する。
次に,多言語GEICフレームワークであるCascadeNERを提案する。
我々はまた、Large Language Models(LLMs)用に特別に設計された最初のNERデータセットであるAnythingNERを紹介します。
論文 参考訳(メタデータ) (2024-09-17T09:32:12Z) - 2M-NER: Contrastive Learning for Multilingual and Multimodal NER with Language and Modal Fusion [9.038363543966263]
我々は、4つの言語(英語、フランス語、ドイツ語、スペイン語)と2つのモーダル性(テキストと画像)を持つ大規模MMNERデータセットを構築した。
2M-NERと呼ばれる新しいモデルを導入し、コントラスト学習を用いてテキストと画像の表現を整列させ、マルチモーダル協調モジュールを統合する。
比較ベースラインや代表ベースラインと比較して,多言語および多モーダルNERタスクにおいてF1スコアが最も高い。
論文 参考訳(メタデータ) (2024-04-26T02:34:31Z) - Named Entity Recognition via Machine Reading Comprehension: A Multi-Task
Learning Approach [50.12455129619845]
Named Entity Recognition (NER) は、テキスト内のエンティティの参照を事前に定義された型に抽出し、分類することを目的としている。
我々は,MRCベースのNERを改善するために,エンティティタイプ間のラベル依存性をマルチタスク学習フレームワークに組み込むことを提案する。
論文 参考訳(メタデータ) (2023-09-20T03:15:05Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - IXA/Cogcomp at SemEval-2023 Task 2: Context-enriched Multilingual Named
Entity Recognition using Knowledge Bases [53.054598423181844]
3つのステップからなる新しいNERカスケードアプローチを提案する。
我々は、細粒度および新興物質を正確に分類する上で、外部知識基盤の重要性を実証的に示す。
本システムは,低リソース言語設定においても,マルチコネラ2共有タスクにおいて頑健な性能を示す。
論文 参考訳(メタデータ) (2023-04-20T20:30:34Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - MultiCoNER: A Large-scale Multilingual dataset for Complex Named Entity
Recognition [15.805414696789796]
我々は、11言語にわたる3つのドメイン(ウィキ文、質問、検索クエリ)をカバーする、名前付きエンティティ認識のための大規模な多言語データセットであるMultiCoNERを提案する。
このデータセットは、低コンテキストシナリオを含む、NERの現代的課題を表現するように設計されている。
論文 参考訳(メタデータ) (2022-08-30T20:45:54Z) - A Dual-Contrastive Framework for Low-Resource Cross-Lingual Named Entity
Recognition [5.030581940990434]
クロスランガルな名前付きエンティティ認識(NER)は、低リソース言語におけるデータ空白問題を緩和できるため、最近研究ホットスポットになっている。
本稿では,言語間NERのための2言語コントラストフレームワーク ConCNER について述べる。
論文 参考訳(メタデータ) (2022-04-02T07:59:13Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。