論文の概要: Enhancing Low Resource NER Using Assisting Language And Transfer
Learning
- arxiv url: http://arxiv.org/abs/2306.06477v1
- Date: Sat, 10 Jun 2023 16:31:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 18:43:11.820547
- Title: Enhancing Low Resource NER Using Assisting Language And Transfer
Learning
- Title(参考訳): 補助言語と伝達学習を用いた低リソースNERの実現
- Authors: Maithili Sabane, Aparna Ranade, Onkar Litake, Parth Patil, Raviraj
Joshi, Dipali Kadam
- Abstract要約: 私たちは、教師付きNERモデルをトレーニングするためにbaseBERT、AlBERT、RoBERTaを使用します。
複数の言語を用いて訓練されたモデルは、単一の言語よりも優れた性能を示すことを示す。
- 参考スコア(独自算出の注目度): 0.7340017786387767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Named Entity Recognition (NER) is a fundamental task in NLP that is used to
locate the key information in text and is primarily applied in conversational
and search systems. In commercial applications, NER or comparable slot-filling
methods have been widely deployed for popular languages. NER is used in
applications such as human resources, customer service, search engines, content
classification, and academia. In this paper, we draw focus on identifying name
entities for low-resource Indian languages that are closely related, like Hindi
and Marathi. We use various adaptations of BERT such as baseBERT, AlBERT, and
RoBERTa to train a supervised NER model. We also compare multilingual models
with monolingual models and establish a baseline. In this work, we show the
assisting capabilities of the Hindi and Marathi languages for the NER task. We
show that models trained using multiple languages perform better than a single
language. However, we also observe that blind mixing of all datasets doesn't
necessarily provide improvements and data selection methods may be required.
- Abstract(参考訳): 名前付きエンティティ認識(ner)はnlpの基本的なタスクであり、テキスト中の重要な情報を見つけるのに使われ、主に会話や検索システムで使われている。
商用アプリケーションでは、NERや同等のスロットフィリングメソッドが一般的な言語に広くデプロイされている。
NERは、ヒューマンリソース、カスタマーサービス、検索エンジン、コンテンツ分類、アカデミックなどのアプリケーションで使用されている。
本稿では,ヒンディー語やマラティ語など,近縁な低リソースのインドの言語の名前の識別に焦点をあてる。
教師付きNERモデルのトレーニングには、baseBERT、AlBERT、RoBERTaといったBERTの様々な適応を使用します。
また,多言語モデルとモノリンガルモデルを比較し,ベースラインを確立する。
本研究では,NERタスクにおけるヒンディー語とマラティ語の補助機能について述べる。
複数の言語で訓練されたモデルは、1つの言語よりも優れた性能を示す。
しかし、すべてのデータセットのブラインドミキシングが必ずしも改善を提供しておらず、データ選択方法が必要かもしれないことも観察した。
関連論文リスト
- Fine-tuning Pre-trained Named Entity Recognition Models For Indian Languages [6.7638050195383075]
課題を分析し,インド語の多言語名称認識に適した手法を提案する。
主要な2つのインド語族から4つのインド語に対する40K文の注釈付きエンティティコーパスを提示する。
我々は、我々のモデルの有用性を裏付けるインド言語のための、全く見当たらないベンチマークデータセットにおいて、同等のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-05-08T05:54:54Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Mono vs Multilingual BERT: A Case Study in Hindi and Marathi Named
Entity Recognition [0.7874708385247353]
我々は、ヒンディー語やマラタイ語のような低リソースのインドの言語について、NERについて検討する。
BERTのさまざまなバリエーションであるbase-BERT、RoBERTa、AlBERTについて検討し、公開されているHindiおよびMarathi NERデータセットでそれらをベンチマークする。
モノリンガルのMahaRoBERTaモデルがMarathi NERに最適であるのに対し,マルチリンガルのXLM-RoBERTaはHindi NERに最適であることを示す。
論文 参考訳(メタデータ) (2022-03-24T07:50:41Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - NaijaNER : Comprehensive Named Entity Recognition for 5 Nigerian
Languages [6.742864446722399]
ナイジェリア語5言語を対象とした名前付きエンティティ認識について述べる。
これらの言語は低リソースと見なされており、オープンソースで利用可能な自然言語処理作業はほとんど行われていない。
論文 参考訳(メタデータ) (2021-03-30T22:10:54Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z) - Soft Gazetteers for Low-Resource Named Entity Recognition [78.00856159473393]
本稿では、英語知識ベースからユビキタスに利用可能な情報をニューラル名付きエンティティ認識モデルに組み込む「ソフトガゼッタ」を提案する。
4つの低リソース言語に対する実験により,F1得点の4点の平均的改善が示された。
論文 参考訳(メタデータ) (2020-05-04T21:58:02Z) - Single-/Multi-Source Cross-Lingual NER via Teacher-Student Learning on
Unlabeled Data in Target Language [28.8970132244542]
言語間NERは、リッチなラベル付きデータを持つソース言語から学んだ知識を活用する必要がある。
このような制約に対処する教師支援学習手法を提案する。
提案手法は,シングルソースとマルチソースのクロスランガルNERにおいて,既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2020-04-26T17:22:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。