論文の概要: MANER: Mask Augmented Named Entity Recognition for Extreme Low-Resource
Languages
- arxiv url: http://arxiv.org/abs/2212.09723v1
- Date: Mon, 19 Dec 2022 18:49:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 16:55:22.195271
- Title: MANER: Mask Augmented Named Entity Recognition for Extreme Low-Resource
Languages
- Title(参考訳): maner: 極端な低リソース言語のための仮称エンティティ認識のマスク
- Authors: Shashank Sonkar, Zichao Wang, Richard G. Baraniuk
- Abstract要約: 低リソース言語に対する Mask Augmented Named Entity Recognition (MANER) を提案する。
具体的には、名前付きエンティティタグを予測したい文中のすべての単語にマスク>トークンをプリペイドする。
実験によると、100のトレーニング例が少ない100の言語では、最先端のメソッドを最大48%改善し、F1スコアで平均12%改善している。
- 参考スコア(独自算出の注目度): 27.812329651072343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the problem of Named Entity Recognition (NER) for
extreme low-resource languages with only a few hundred tagged data samples. NER
is a fundamental task in Natural Language Processing (NLP). A critical driver
accelerating NER systems' progress is the existence of large-scale language
corpora that enable NER systems to achieve outstanding performance in languages
such as English and French with abundant training data. However, NER for
low-resource languages remains relatively unexplored. In this paper, we
introduce Mask Augmented Named Entity Recognition (MANER), a new methodology
that leverages the distributional hypothesis of pre-trained masked language
models (MLMs) for NER. The <mask> token in pre-trained MLMs encodes valuable
semantic contextual information. MANER re-purposes the <mask> token for NER
prediction. Specifically, we prepend the <mask> token to every word in a
sentence for which we would like to predict the named entity tag. During
training, we jointly fine-tune the MLM and a new NER prediction head attached
to each <mask> token. We demonstrate that MANER is well-suited for NER in
low-resource languages; our experiments show that for 100 languages with as few
as 100 training examples, it improves on state-of-the-art methods by up to 48%
and by 12% on average on F1 score. We also perform detailed analyses and
ablation studies to understand the scenarios that are best-suited to MANER.
- Abstract(参考訳): 本稿では,数百個のタグ付きデータサンプルを持つ極低リソース言語における名前付きエンティティ認識(NER)の問題について検討する。
NERは自然言語処理(NLP)の基本課題である。
nerシステムの進歩を加速する重要なドライバは、nerシステムが豊富なトレーニングデータを持つ英語やフランス語などの言語で優れたパフォーマンスを達成することができる大規模言語コーパスの存在である。
しかし、低リソース言語に対するnerは比較的未調査のままである。
本稿では,nerのための事前学習されたマスク言語モデル(mlms)の分布仮説を活用する新しい手法である,マスク拡張型名前付きエンティティ認識(maner)を提案する。
事前訓練されたMLMの<mask>トークンは、貴重な意味的コンテキスト情報をエンコードする。
MANERはNER予測のために<mask>トークンを再使用する。
具体的には、名前付きエンティティタグを予測したい文中のすべての単語に<mask>トークンをプリペイドします。
トレーニング中は,MLMと<mask>トークンに付加された新しいNER予測ヘッドを共同で微調整する。
我々は、MANERが低リソース言語でNERに適していることを示し、100のトレーニング例が少ない100の言語では、最先端のメソッドを最大48%改善し、F1スコアで平均12%改善することを示した。
我々はまた、MANERに最も適したシナリオを理解するために、詳細な分析およびアブレーション研究を行う。
関連論文リスト
- GEIC: Universal and Multilingual Named Entity Recognition with Large Language Models [7.714969840571947]
ジェネレーションベース抽出とテキスト内分類(GEIC)の課題について紹介する。
次に,多言語GEICフレームワークであるCascadeNERを提案する。
我々はまた、Large Language Models(LLMs)用に特別に設計された最初のNERデータセットであるAnythingNERを紹介します。
論文 参考訳(メタデータ) (2024-09-17T09:32:12Z) - On Significance of Subword tokenization for Low Resource and Efficient
Named Entity Recognition: A case study in Marathi [1.6383036433216434]
低リソース言語のためのNERに焦点をあて、インド語Marathiの文脈におけるケーススタディを示す。
BERTベースのサブワードトークン化器をバニラCNN/LSTMモデルに統合することで,効率的なNERのためのハイブリッド手法を提案する。
従来の単語ベースのトークン化器をBERTトークン化器に置き換えるという単純なアプローチは,バニラ単層モデルの精度をBERTのような深層事前学習モデルの精度に近づけることを示す。
論文 参考訳(メタデータ) (2023-12-03T06:53:53Z) - Self-Evolution Learning for Discriminative Language Model Pretraining [103.57103957631067]
自己進化学習(Self-Evolution Learning、SE)は、単純で効果的なトークンマスキングと学習方法である。
SEは情報的だが未探索のトークンを学習することに集中し、新しいToken固有のラベル平滑化アプローチを導入してトレーニングを適応的に調整する。
論文 参考訳(メタデータ) (2023-05-24T16:00:54Z) - IXA/Cogcomp at SemEval-2023 Task 2: Context-enriched Multilingual Named
Entity Recognition using Knowledge Bases [53.054598423181844]
3つのステップからなる新しいNERカスケードアプローチを提案する。
我々は、細粒度および新興物質を正確に分類する上で、外部知識基盤の重要性を実証的に示す。
本システムは,低リソース言語設定においても,マルチコネラ2共有タスクにおいて頑健な性能を示す。
論文 参考訳(メタデータ) (2023-04-20T20:30:34Z) - GanLM: Encoder-Decoder Pre-training with an Auxiliary Discriminator [114.8954615026781]
本稿では,補助判別器を導入して,エンコーダ・デコーダ事前学習のためのGANスタイルのモデルを提案する。
GanLMは2つのトレーニング済みの目標 – トークン検出の置き換えとトークン記述の置き換え – でトレーニングされている。
言語生成ベンチマークの実験では、強力な言語理解能力を持つ GanLM が、様々な強力な事前学習言語モデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-20T12:51:11Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - An Open-Source Dataset and A Multi-Task Model for Malay Named Entity
Recognition [3.511753382329252]
マレーNERデータセット(MYNER)を28,991文(384万個以上)で構築する。
NERトレーニングを明示的かつ暗黙的に改善するために、補助的なタスクである境界検出が導入されている。
論文 参考訳(メタデータ) (2021-09-03T03:29:25Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Crowdsourced Phrase-Based Tokenization for Low-Resourced Neural Machine
Translation: The Case of Fon Language [0.015863809575305417]
人間関係のスーパーワードトークン化戦略であるWord-Expressions-Based(WEB)トークン化について紹介します。
トークン化戦略を、Fon- French と French-Fon の翻訳タスクで比較する。
論文 参考訳(メタデータ) (2021-03-14T22:12:14Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。