論文の概要: L3Cube-MahaNLP: Marathi Natural Language Processing Datasets, Models,
and Library
- arxiv url: http://arxiv.org/abs/2205.14728v2
- Date: Tue, 31 May 2022 15:15:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 11:43:26.057824
- Title: L3Cube-MahaNLP: Marathi Natural Language Processing Datasets, Models,
and Library
- Title(参考訳): L3Cube-MahaNLP:Marathi自然言語処理データセット、モデル、ライブラリ
- Authors: Raviraj Joshi
- Abstract要約: インドで3番目に人気のある言語であるにもかかわらず、マラタイ語は有用なNLP資源を欠いている。
L3Cube-MahaNLPでは,マラウイの自然言語処理のためのリソースとライブラリの構築を目標としている。
我々は、感情分析、名前付きエンティティ認識、ヘイトスピーチ検出などの教師付きタスクのためのデータセットとトランスフォーマーモデルを提案する。
- 参考スコア(独自算出の注目度): 1.14219428942199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite being the third most popular language in India, the Marathi language
lacks useful NLP resources. Moreover, popular NLP libraries do not have support
for the Marathi language. With L3Cube-MahaNLP, we aim to build resources and a
library for Marathi natural language processing. We present datasets and
transformer models for supervised tasks like sentiment analysis, named entity
recognition, and hate speech detection. We have also published a monolingual
Marathi corpus for unsupervised language modeling tasks. Overall we present
MahaCorpus, MahaSent, MahaNER, and MahaHate datasets and their corresponding
MahaBERT models fine-tuned on these datasets. We aim to move ahead of benchmark
datasets and prepare useful resources for Marathi. The resources are available
at https://github.com/l3cube-pune/MarathiNLP.
- Abstract(参考訳): インドで3番目に人気のある言語であるにもかかわらず、マラタイ語は有用なNLP資源を欠いている。
さらに、人気のあるNLPライブラリは、Marathi言語をサポートしていない。
L3Cube-MahaNLPでは,マラウイの自然言語処理のためのリソースとライブラリの構築を目指している。
我々は、感情分析、名前付きエンティティ認識、ヘイトスピーチ検出などの教師付きタスクのためのデータセットとトランスフォーマーモデルを提案する。
また,教師なし言語モデリングタスクのための単言語Marathiコーパスも公開している。
全体として、MahaCorpus、MahaSent、MahaNER、MahaHateのデータセットとその対応するMahaBERTモデルをこれらのデータセットで微調整する。
ベンチマークデータセットに先んじて、Marathiの有用なリソースを準備したいと思っています。
リソースはhttps://github.com/l3cube-pune/MarathiNLPで入手できる。
関連論文リスト
- Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - mahaNLP: A Marathi Natural Language Processing Library [0.4499833362998489]
本稿では,オープンソースの自然言語処理(NLP)ライブラリであるmahaNLPについて述べる。
NLPの分野では、低リソースのインドの言語であるMarathiのサポートを強化することを目指している。
論文 参考訳(メタデータ) (2023-11-05T06:59:59Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Mono vs Multilingual BERT for Hate Speech Detection and Text
Classification: A Case Study in Marathi [0.966840768820136]
マラーティー語に焦点をあて、ヘイトスピーチの検出、感情分析、マラティー語における単純なテキスト分類のためのデータセットのモデルを評価する。
我々は,mBERT,indicBERT,xlm-RoBERTaなどの標準多言語モデルを用い,MahaBERT,MahaALBERT,MahaRoBERTaと比較した。
単言語MahaBERTをベースとしたモデルでは,多言語からの文の埋め込みに比べて表現が豊富であることを示す。
論文 参考訳(メタデータ) (2022-04-19T05:07:58Z) - L3Cube-MahaNER: A Marathi Named Entity Recognition Dataset and BERT
models [0.7874708385247353]
我々はマハーラーシュトラ州の住民によって顕著に話されるインドの言語であるマラティに焦点を当てている。
マラタイで最初の主要金本位認証データセットであるL3Cube-MahaNERを提示する。
最後に、mBERT、XLM-RoBERTa、IndicBERT、MahaBERTなどの異なるCNN、LSTM、Transformerベースのモデルでデータセットをベンチマークする。
論文 参考訳(メタデータ) (2022-04-12T18:32:15Z) - L3Cube-MahaCorpus and MahaBERT: Marathi Monolingual Corpus, Marathi BERT
Language Models, and Resources [1.14219428942199]
我々は、L3Cube-MahaCorpusを、異なるインターネットソースから取り除かれたマラタイのモノリンガルデータセットとして提示する。
既存のMarathiモノリンガルコーパスを24.8M文と289Mトークンで拡張する。
下流分類とNERタスクにおけるこれらのリソースの有効性を示す。
論文 参考訳(メタデータ) (2022-02-02T17:35:52Z) - Experimental Evaluation of Deep Learning models for Marathi Text
Classification [0.0]
CNN, LSTM, ULMFiT, BERT ベースのモデルを, 2つの公開 Marathi テキスト分類データセットで評価する。
CNNとLSTMに基づく基本単層モデルとFastTextの埋め込みは、利用可能なデータセット上でBERTベースのモデルと同等に動作することを示す。
論文 参考訳(メタデータ) (2021-01-13T06:21:27Z) - Soft Gazetteers for Low-Resource Named Entity Recognition [78.00856159473393]
本稿では、英語知識ベースからユビキタスに利用可能な情報をニューラル名付きエンティティ認識モデルに組み込む「ソフトガゼッタ」を提案する。
4つの低リソース言語に対する実験により,F1得点の4点の平均的改善が示された。
論文 参考訳(メタデータ) (2020-05-04T21:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。