論文の概要: L3Cube-MahaNER: A Marathi Named Entity Recognition Dataset and BERT
models
- arxiv url: http://arxiv.org/abs/2204.06029v1
- Date: Tue, 12 Apr 2022 18:32:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 12:22:49.796934
- Title: L3Cube-MahaNER: A Marathi Named Entity Recognition Dataset and BERT
models
- Title(参考訳): L3Cube-MahaNER: エンティティ認識データセットとBERTモデル
- Authors: Parth Patil, Aparna Ranade, Maithili Sabane, Onkar Litake, Raviraj
Joshi
- Abstract要約: 我々はマハーラーシュトラ州の住民によって顕著に話されるインドの言語であるマラティに焦点を当てている。
マラタイで最初の主要金本位認証データセットであるL3Cube-MahaNERを提示する。
最後に、mBERT、XLM-RoBERTa、IndicBERT、MahaBERTなどの異なるCNN、LSTM、Transformerベースのモデルでデータセットをベンチマークする。
- 参考スコア(独自算出の注目度): 0.7874708385247353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Named Entity Recognition (NER) is a basic NLP task and finds major
applications in conversational and search systems. It helps us identify key
entities in a sentence used for the downstream application. NER or similar slot
filling systems for popular languages have been heavily used in commercial
applications. In this work, we focus on Marathi, an Indian language, spoken
prominently by the people of Maharashtra state. Marathi is a low resource
language and still lacks useful NER resources. We present L3Cube-MahaNER, the
first major gold standard named entity recognition dataset in Marathi. We also
describe the manual annotation guidelines followed during the process. In the
end, we benchmark the dataset on different CNN, LSTM, and Transformer based
models like mBERT, XLM-RoBERTa, IndicBERT, MahaBERT, etc. The MahaBERT provides
the best performance among all the models. The data and models are available at
https://github.com/l3cube-pune/MarathiNLP .
- Abstract(参考訳): Named Entity Recognition (NER) は基本的なNLPタスクであり、会話や検索システムにおける主要な用途を見つける。
下流のアプリケーションで使われる文の中のキーエンティティを識別するのに役立ちます。
一般的な言語向けのNERや類似のスロットフィリングシステムは、商用アプリケーションでよく使われている。
本研究では,マハーラーシュトラ州の住民に顕著に話されるインドの言語であるマラティに焦点を当てる。
Marathiは低リソース言語であり、今でも有用なNERリソースがない。
マラタイで最初の主要金本位認証データセットであるL3Cube-MahaNERを提示する。
また,手作業によるアノテーションガイドラインについても述べる。
最後に、mBERT、XLM-RoBERTa、IndicBERT、MahaBERTなどの異なるCNN、LSTM、Transformerベースのモデルでデータセットをベンチマークする。
MahaBERTはすべてのモデルの中で最高のパフォーマンスを提供する。
データとモデルはhttps://github.com/l3cube-pune/marathinlpで入手できる。
関連論文リスト
- L3Cube-MahaSocialNER: A Social Media based Marathi NER Dataset and BERT
models [1.8624310307965966]
L3Cube-MahaSocialNERデータセットは、Marathi言語で名前付きエンティティ認識(NER)用に特別に設計された、最初の、かつ最大のソーシャルメディアデータセットである。
データセットは、8つのエンティティクラスをカバーする18,000のマニュアルラベル付き文で構成されている。
CNN、LSTM、BiLSTM、Transformerモデルを含むディープラーニングモデルは、IOBおよび非IOB表記を用いて個々のデータセットで評価される。
論文 参考訳(メタデータ) (2023-12-30T08:30:24Z) - Enhancing Low Resource NER Using Assisting Language And Transfer
Learning [0.7340017786387767]
私たちは、教師付きNERモデルをトレーニングするためにbaseBERT、AlBERT、RoBERTaを使用します。
複数の言語を用いて訓練されたモデルは、単一の言語よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2023-06-10T16:31:04Z) - IXA/Cogcomp at SemEval-2023 Task 2: Context-enriched Multilingual Named
Entity Recognition using Knowledge Bases [53.054598423181844]
3つのステップからなる新しいNERカスケードアプローチを提案する。
我々は、細粒度および新興物質を正確に分類する上で、外部知識基盤の重要性を実証的に示す。
本システムは,低リソース言語設定においても,マルチコネラ2共有タスクにおいて頑健な性能を示す。
論文 参考訳(メタデータ) (2023-04-20T20:30:34Z) - L3Cube-MahaNLP: Marathi Natural Language Processing Datasets, Models,
and Library [1.14219428942199]
インドで3番目に人気のある言語であるにもかかわらず、マラタイ語は有用なNLP資源を欠いている。
L3Cube-MahaNLPでは,マラウイの自然言語処理のためのリソースとライブラリの構築を目標としている。
我々は、感情分析、名前付きエンティティ認識、ヘイトスピーチ検出などの教師付きタスクのためのデータセットとトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-05-29T17:51:00Z) - Mono vs Multilingual BERT: A Case Study in Hindi and Marathi Named
Entity Recognition [0.7874708385247353]
我々は、ヒンディー語やマラタイ語のような低リソースのインドの言語について、NERについて検討する。
BERTのさまざまなバリエーションであるbase-BERT、RoBERTa、AlBERTについて検討し、公開されているHindiおよびMarathi NERデータセットでそれらをベンチマークする。
モノリンガルのMahaRoBERTaモデルがMarathi NERに最適であるのに対し,マルチリンガルのXLM-RoBERTaはHindi NERに最適であることを示す。
論文 参考訳(メタデータ) (2022-03-24T07:50:41Z) - L3Cube-MahaCorpus and MahaBERT: Marathi Monolingual Corpus, Marathi BERT
Language Models, and Resources [1.14219428942199]
我々は、L3Cube-MahaCorpusを、異なるインターネットソースから取り除かれたマラタイのモノリンガルデータセットとして提示する。
既存のMarathiモノリンガルコーパスを24.8M文と289Mトークンで拡張する。
下流分類とNERタスクにおけるこれらのリソースの有効性を示す。
論文 参考訳(メタデータ) (2022-02-02T17:35:52Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z) - Soft Gazetteers for Low-Resource Named Entity Recognition [78.00856159473393]
本稿では、英語知識ベースからユビキタスに利用可能な情報をニューラル名付きエンティティ認識モデルに組み込む「ソフトガゼッタ」を提案する。
4つの低リソース言語に対する実験により,F1得点の4点の平均的改善が示された。
論文 参考訳(メタデータ) (2020-05-04T21:58:02Z) - Incorporating BERT into Neural Machine Translation [251.54280200353674]
本稿では,入力シーケンスの表現抽出にBERTを用いたBERT融合モデルを提案する。
我々は、教師付き(文レベルと文書レベルの翻訳を含む)、半教師なしおよび教師なしの機械翻訳の実験を行い、7つのベンチマークデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-02-17T08:13:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。