論文の概要: Mono vs Multilingual BERT: A Case Study in Hindi and Marathi Named
Entity Recognition
- arxiv url: http://arxiv.org/abs/2203.12907v1
- Date: Thu, 24 Mar 2022 07:50:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 13:03:28.796703
- Title: Mono vs Multilingual BERT: A Case Study in Hindi and Marathi Named
Entity Recognition
- Title(参考訳): Mono vs Multilingual BERT:Hindi and Marathi Named Entity Recognition を事例として
- Authors: Onkar Litake, Maithili Sabane, Parth Patil, Aparna Ranade, Raviraj
Joshi
- Abstract要約: 我々は、ヒンディー語やマラタイ語のような低リソースのインドの言語について、NERについて検討する。
BERTのさまざまなバリエーションであるbase-BERT、RoBERTa、AlBERTについて検討し、公開されているHindiおよびMarathi NERデータセットでそれらをベンチマークする。
モノリンガルのMahaRoBERTaモデルがMarathi NERに最適であるのに対し,マルチリンガルのXLM-RoBERTaはHindi NERに最適であることを示す。
- 参考スコア(独自算出の注目度): 0.7874708385247353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Named entity recognition (NER) is the process of recognising and classifying
important information (entities) in text. Proper nouns, such as a person's
name, an organization's name, or a location's name, are examples of entities.
The NER is one of the important modules in applications like human resources,
customer support, search engines, content classification, and academia. In this
work, we consider NER for low-resource Indian languages like Hindi and Marathi.
The transformer-based models have been widely used for NER tasks. We consider
different variations of BERT like base-BERT, RoBERTa, and AlBERT and benchmark
them on publicly available Hindi and Marathi NER datasets. We provide an
exhaustive comparison of different monolingual and multilingual
transformer-based models and establish simple baselines currently missing in
the literature. We show that the monolingual MahaRoBERTa model performs the
best for Marathi NER whereas the multilingual XLM-RoBERTa performs the best for
Hindi NER. We also perform cross-language evaluation and present mixed
observations.
- Abstract(参考訳): 名前付きエンティティ認識(NER)は、重要な情報(エンティティ)をテキストで認識し分類するプロセスである。
人名、組織名、場所名などの固有名詞は、実体の例である。
NERは、ヒューマンリソース、カスタマーサポート、検索エンジン、コンテンツ分類、アカデミックといったアプリケーションにおいて重要なモジュールの1つです。
本研究では,ヒンディー語やマラティ語などの低資源インド語についてnerを考察する。
トランスフォーマーベースのモデルは、NERタスクに広く使われている。
BERTのさまざまなバリエーションであるbase-BERT、RoBERTa、AlBERTについて検討し、HindiおよびMarathi NERデータセットでそれらをベンチマークする。
単言語モデルと多言語モデルの比較を行い,現在文献に欠けている単純なベースラインを確立する。
モノリンガルのMahaRoBERTaモデルがMarathi NERに最適であるのに対し,マルチリンガルのXLM-RoBERTaはHindi NERに最適であることを示す。
また,言語横断評価を行い,混合観察を行った。
関連論文リスト
- Fine-tuning Pre-trained Named Entity Recognition Models For Indian Languages [6.7638050195383075]
課題を分析し,インド語の多言語名称認識に適した手法を提案する。
主要な2つのインド語族から4つのインド語に対する40K文の注釈付きエンティティコーパスを提示する。
我々は、我々のモデルの有用性を裏付けるインド言語のための、全く見当たらないベンチマークデータセットにおいて、同等のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-05-08T05:54:54Z) - Named Entity Recognition via Machine Reading Comprehension: A Multi-Task
Learning Approach [50.12455129619845]
Named Entity Recognition (NER) は、テキスト内のエンティティの参照を事前に定義された型に抽出し、分類することを目的としている。
我々は,MRCベースのNERを改善するために,エンティティタイプ間のラベル依存性をマルチタスク学習フレームワークに組み込むことを提案する。
論文 参考訳(メタデータ) (2023-09-20T03:15:05Z) - Enhancing Low Resource NER Using Assisting Language And Transfer
Learning [0.7340017786387767]
私たちは、教師付きNERモデルをトレーニングするためにbaseBERT、AlBERT、RoBERTaを使用します。
複数の言語を用いて訓練されたモデルは、単一の言語よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2023-06-10T16:31:04Z) - IXA/Cogcomp at SemEval-2023 Task 2: Context-enriched Multilingual Named
Entity Recognition using Knowledge Bases [53.054598423181844]
3つのステップからなる新しいNERカスケードアプローチを提案する。
我々は、細粒度および新興物質を正確に分類する上で、外部知識基盤の重要性を実証的に示す。
本システムは,低リソース言語設定においても,マルチコネラ2共有タスクにおいて頑健な性能を示す。
論文 参考訳(メタデータ) (2023-04-20T20:30:34Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Mono vs Multilingual BERT for Hate Speech Detection and Text
Classification: A Case Study in Marathi [0.966840768820136]
マラーティー語に焦点をあて、ヘイトスピーチの検出、感情分析、マラティー語における単純なテキスト分類のためのデータセットのモデルを評価する。
我々は,mBERT,indicBERT,xlm-RoBERTaなどの標準多言語モデルを用い,MahaBERT,MahaALBERT,MahaRoBERTaと比較した。
単言語MahaBERTをベースとしたモデルでは,多言語からの文の埋め込みに比べて表現が豊富であることを示す。
論文 参考訳(メタデータ) (2022-04-19T05:07:58Z) - L3Cube-MahaNER: A Marathi Named Entity Recognition Dataset and BERT
models [0.7874708385247353]
我々はマハーラーシュトラ州の住民によって顕著に話されるインドの言語であるマラティに焦点を当てている。
マラタイで最初の主要金本位認証データセットであるL3Cube-MahaNERを提示する。
最後に、mBERT、XLM-RoBERTa、IndicBERT、MahaBERTなどの異なるCNN、LSTM、Transformerベースのモデルでデータセットをベンチマークする。
論文 参考訳(メタデータ) (2022-04-12T18:32:15Z) - CL-NERIL: A Cross-Lingual Model for NER in Indian Languages [0.5926203312586108]
本稿では,インドの言語を対象としたNERのエンドツーエンドフレームワークを提案する。
我々は、英語とインド語の並列コーパスと英語のNERデータセットを利用する。
Hindi、Bengali、Gujaratiの3言語に対して手動でアノテートしたテストセットを提示する。
論文 参考訳(メタデータ) (2021-11-23T12:09:15Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - Soft Gazetteers for Low-Resource Named Entity Recognition [78.00856159473393]
本稿では、英語知識ベースからユビキタスに利用可能な情報をニューラル名付きエンティティ認識モデルに組み込む「ソフトガゼッタ」を提案する。
4つの低リソース言語に対する実験により,F1得点の4点の平均的改善が示された。
論文 参考訳(メタデータ) (2020-05-04T21:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。