論文の概要: On Significance of Subword tokenization for Low Resource and Efficient
Named Entity Recognition: A case study in Marathi
- arxiv url: http://arxiv.org/abs/2312.01306v1
- Date: Sun, 3 Dec 2023 06:53:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 18:09:06.991863
- Title: On Significance of Subword tokenization for Low Resource and Efficient
Named Entity Recognition: A case study in Marathi
- Title(参考訳): 低リソース化と効率的な名前付きエンティティ認識のためのサブワードトークン化の意義--マラティにおける事例研究
- Authors: Harsh Chaudhari, Anuja Patil, Dhanashree Lavekar, Pranav Khairnar,
Raviraj Joshi, Sachin Pande
- Abstract要約: 低リソース言語のためのNERに焦点をあて、インド語Marathiの文脈におけるケーススタディを示す。
BERTベースのサブワードトークン化器をバニラCNN/LSTMモデルに統合することで,効率的なNERのためのハイブリッド手法を提案する。
従来の単語ベースのトークン化器をBERTトークン化器に置き換えるという単純なアプローチは,バニラ単層モデルの精度をBERTのような深層事前学習モデルの精度に近づけることを示す。
- 参考スコア(独自算出の注目度): 1.6383036433216434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Named Entity Recognition (NER) systems play a vital role in NLP applications
such as machine translation, summarization, and question-answering. These
systems identify named entities, which encompass real-world concepts like
locations, persons, and organizations. Despite extensive research on NER
systems for the English language, they have not received adequate attention in
the context of low resource languages. In this work, we focus on NER for
low-resource language and present our case study in the context of the Indian
language Marathi. The advancement of NLP research revolves around the
utilization of pre-trained transformer models such as BERT for the development
of NER models. However, we focus on improving the performance of shallow models
based on CNN, and LSTM by combining the best of both worlds. In the era of
transformers, these traditional deep learning models are still relevant because
of their high computational efficiency. We propose a hybrid approach for
efficient NER by integrating a BERT-based subword tokenizer into vanilla
CNN/LSTM models. We show that this simple approach of replacing a traditional
word-based tokenizer with a BERT-tokenizer brings the accuracy of vanilla
single-layer models closer to that of deep pre-trained models like BERT. We
show the importance of using sub-word tokenization for NER and present our
study toward building efficient NLP systems. The evaluation is performed on
L3Cube-MahaNER dataset using tokenizers from MahaBERT, MahaGPT, IndicBERT, and
mBERT.
- Abstract(参考訳): 名前付きエンティティ認識(NER)システムは、機械翻訳、要約、質問応答などのNLPアプリケーションにおいて重要な役割を果たす。
これらのシステムは、場所、人、組織といった現実世界の概念を含む名前付きエンティティを識別する。
英語のNERシステムに関する広範な研究にもかかわらず、低資源言語の文脈では十分な注目を集めていない。
本研究では,低リソース言語のためのNERに着目し,インドの言語Marathiの文脈におけるケーススタディを示す。
NLP研究の進展は、NERモデルの開発にBERTのような事前訓練されたトランスフォーマーモデルの利用を中心に展開されている。
しかし,両世界のベストを組み合わせることで,cnnとlstmに基づく浅層モデルの性能向上に注目する。
変圧器の時代には、これらの伝統的なディープラーニングモデルは高い計算効率のため、いまだに関係がある。
BERTベースのサブワードトークン化器をバニラCNN/LSTMモデルに統合することで,効率的なNERのためのハイブリッド手法を提案する。
従来の単語ベースのトークン化器をbert-tokenizerに置き換えるこの単純なアプローチは,bertのような深い事前学習モデルに近いバニラ単層モデルの精度をもたらすことを示す。
我々は,NERにおけるサブワードトークン化の重要性と,効率的なNLPシステム構築に向けた研究について述べる。
The evaluation was performed on L3Cube-MahaNER dataset using tokenizers from MahaBERT, MahaGPT, IndicBERT, mBERT。
関連論文リスト
- Incorporating Class-based Language Model for Named Entity Recognition in Factorized Neural Transducer [50.572974726351504]
クラスベースのLMをFNTに組み込んだ新しいE2EモデルであるC-FNTを提案する。
C-FNTでは、名前付きエンティティのLMスコアは、その表面形式の代わりに名前クラスに関連付けることができる。
実験の結果,提案したC-FNTは,単語認識の性能を損なうことなく,名前付きエンティティの誤りを著しく低減することがわかった。
論文 参考訳(メタデータ) (2023-09-14T12:14:49Z) - Enhancing Low Resource NER Using Assisting Language And Transfer
Learning [0.7340017786387767]
私たちは、教師付きNERモデルをトレーニングするためにbaseBERT、AlBERT、RoBERTaを使用します。
複数の言語を用いて訓練されたモデルは、単一の言語よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2023-06-10T16:31:04Z) - IXA/Cogcomp at SemEval-2023 Task 2: Context-enriched Multilingual Named
Entity Recognition using Knowledge Bases [53.054598423181844]
3つのステップからなる新しいNERカスケードアプローチを提案する。
我々は、細粒度および新興物質を正確に分類する上で、外部知識基盤の重要性を実証的に示す。
本システムは,低リソース言語設定においても,マルチコネラ2共有タスクにおいて頑健な性能を示す。
論文 参考訳(メタデータ) (2023-04-20T20:30:34Z) - German BERT Model for Legal Named Entity Recognition [0.43461794560295636]
法定エンティティ認識(LER)データセット上で、ドイツのデータ(BERT)に基づいてトレーニングされた人気のあるBERT言語モデルを微調整する。
LERデータセット上のゲルマンBERTを微調整することで、同じLERデータセットの著者が使用するBiLSTM-CRF+モデルより優れた結果が得られる。
論文 参考訳(メタデータ) (2023-03-07T11:54:39Z) - MANER: Mask Augmented Named Entity Recognition for Extreme Low-Resource
Languages [27.812329651072343]
低リソース言語に対する Mask Augmented Named Entity Recognition (MANER) を提案する。
具体的には、名前付きエンティティタグを予測したい文中のすべての単語にマスク>トークンをプリペイドする。
実験によると、100のトレーニング例が少ない100の言語では、最先端のメソッドを最大48%改善し、F1スコアで平均12%改善している。
論文 参考訳(メタデータ) (2022-12-19T18:49:50Z) - Distantly-Supervised Named Entity Recognition with Noise-Robust Learning
and Language Model Augmented Self-Training [66.80558875393565]
遠距離ラベル付きデータのみを用いて、名前付きエンティティ認識(NER)モデルを訓練する際の課題について検討する。
本稿では,新しい損失関数と雑音ラベル除去ステップからなるノイズロスバスト学習手法を提案する。
提案手法は,既存の遠隔教師付きNERモデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2021-09-10T17:19:56Z) - An Open-Source Dataset and A Multi-Task Model for Malay Named Entity
Recognition [3.511753382329252]
マレーNERデータセット(MYNER)を28,991文(384万個以上)で構築する。
NERトレーニングを明示的かつ暗黙的に改善するために、補助的なタスクである境界検出が導入されている。
論文 参考訳(メタデータ) (2021-09-03T03:29:25Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z) - Soft Gazetteers for Low-Resource Named Entity Recognition [78.00856159473393]
本稿では、英語知識ベースからユビキタスに利用可能な情報をニューラル名付きエンティティ認識モデルに組み込む「ソフトガゼッタ」を提案する。
4つの低リソース言語に対する実験により,F1得点の4点の平均的改善が示された。
論文 参考訳(メタデータ) (2020-05-04T21:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。