論文の概要: mahaNLP: A Marathi Natural Language Processing Library
- arxiv url: http://arxiv.org/abs/2311.02579v1
- Date: Sun, 5 Nov 2023 06:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 16:53:24.635568
- Title: mahaNLP: A Marathi Natural Language Processing Library
- Title(参考訳): mahaNLP: マラウイの自然言語処理ライブラリ
- Authors: Vidula Magdum, Omkar Dhekane, Sharayu Hiwarkhedkar, Saloni Mittal,
Raviraj Joshi
- Abstract要約: 本稿では,オープンソースの自然言語処理(NLP)ライブラリであるmahaNLPについて述べる。
NLPの分野では、低リソースのインドの言語であるMarathiのサポートを強化することを目指している。
- 参考スコア(独自算出の注目度): 0.4499833362998489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present mahaNLP, an open-source natural language processing (NLP) library
specifically built for the Marathi language. It aims to enhance the support for
the low-resource Indian language Marathi in the field of NLP. It is an
easy-to-use, extensible, and modular toolkit for Marathi text analysis built on
state-of-the-art MahaBERT-based transformer models. Our work holds significant
importance as other existing Indic NLP libraries provide basic Marathi
processing support and rely on older models with restricted performance. Our
toolkit stands out by offering a comprehensive array of NLP tasks, encompassing
both fundamental preprocessing tasks and advanced NLP tasks like sentiment
analysis, NER, hate speech detection, and sentence completion. This paper
focuses on an overview of the mahaNLP framework, its features, and its usage.
This work is a part of the L3Cube MahaNLP initiative, more information about it
can be found at https://github.com/l3cube-pune/MarathiNLP .
- Abstract(参考訳): 本稿では,オープンソースの自然言語処理(NLP)ライブラリであるmahaNLPについて述べる。
NLPの分野では、低リソースのインドの言語であるMarathiのサポートを強化することを目指している。
これは、最先端のMahaBERTベースのトランスフォーマーモデル上に構築されたMarathiテキスト解析のための、使いやすく、拡張性があり、モジュラーなツールキットである。
我々の作業は、既存のIndic NLPライブラリが基本的なMarathi処理サポートを提供し、性能が制限された古いモデルに依存しているため、非常に重要である。
我々のツールキットは、基本的な前処理タスクと、感情分析、NER、ヘイトスピーチ検出、文補完といった高度なNLPタスクの両方を含む、包括的なNLPタスクの配列を提供することで際立っている。
本稿では,mahaNLPフレームワークの概要,特徴,使用法について述べる。
この作業はL3Cube MahaNLPイニシアチブの一部であり、詳細はhttps://github.com/l3cube-pune/MarathiNLPで確認できる。
関連論文リスト
- CMULAB: An Open-Source Framework for Training and Deployment of Natural Language Processing Models [59.91221728187576]
本稿では,NLPモデルのモデル展開と連続的なヒューマン・イン・ザ・ループの微調整を簡単にするオープンソースフレームワークであるCMU言語バックエンドを紹介する。
CMULABは、マルチ言語モデルのパワーを活用して、音声認識、OCR、翻訳、構文解析などの既存のツールを新しい言語に迅速に適応し、拡張することができる。
論文 参考訳(メタデータ) (2024-04-03T02:21:46Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - SanskritShala: A Neural Sanskrit NLP Toolkit with Web-Based Interface
for Pedagogical and Annotation Purposes [13.585440544031584]
ニューラルサンスクリット自然言語処理(NLP)ツールキットであるSanskritShalaを提案する。
本システムでは,全タスクで利用可能なベンチマークデータセットについて,最先端のパフォーマンスを報告している。
SanskritShalaはWebベースのアプリケーションとしてデプロイされ、ユーザが入力に対してリアルタイムに分析することができる。
論文 参考訳(メタデータ) (2023-02-19T09:58:55Z) - L3Cube-MahaNLP: Marathi Natural Language Processing Datasets, Models,
and Library [1.14219428942199]
インドで3番目に人気のある言語であるにもかかわらず、マラタイ語は有用なNLP資源を欠いている。
L3Cube-MahaNLPでは,マラウイの自然言語処理のためのリソースとライブラリの構築を目標としている。
我々は、感情分析、名前付きエンティティ認識、ヘイトスピーチ検出などの教師付きタスクのためのデータセットとトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-05-29T17:51:00Z) - Number Entity Recognition [65.80137628972312]
番号は他のワードトークンと同様に、自然言語処理(NLP)モデルを構築し、デプロイするテキストの必須コンポーネントである。
本研究では、最先端のNLPモデルの可能性を活用し、関連するタスクにおける性能向上能力の伝達を試みる。
提案した数値をエンティティに分類することで,手作りのFill-In-The-Blank (FITB)タスクや,関節埋め込みを用いた質問応答など,NLPモデルの性能が向上する。
論文 参考訳(メタデータ) (2022-05-07T05:22:43Z) - L3Cube-MahaNER: A Marathi Named Entity Recognition Dataset and BERT
models [0.7874708385247353]
我々はマハーラーシュトラ州の住民によって顕著に話されるインドの言語であるマラティに焦点を当てている。
マラタイで最初の主要金本位認証データセットであるL3Cube-MahaNERを提示する。
最後に、mBERT、XLM-RoBERTa、IndicBERT、MahaBERTなどの異なるCNN、LSTM、Transformerベースのモデルでデータセットをベンチマークする。
論文 参考訳(メタデータ) (2022-04-12T18:32:15Z) - textless-lib: a Library for Textless Spoken Language Processing [50.070693765984075]
我々はPyTorchベースのライブラリであるtextless-libを紹介した。
ライブラリが提供するビルディングブロックを説明し、そのユーザビリティを実証する。
論文 参考訳(メタデータ) (2022-02-15T12:39:42Z) - "A Passage to India": Pre-trained Word Embeddings for Indian Languages [30.607474624873014]
既存のアプローチを使って、14のインドの言語に複数の単語を埋め込みます。
これらすべての言語への組み込みを単一のリポジトリに配置します。
8つの異なるアプローチを使って、合計436のモデルをリリースします。
論文 参考訳(メタデータ) (2021-12-27T17:31:04Z) - A Data-Centric Framework for Composable NLP Workflows [109.51144493023533]
アプリケーションドメインにおける経験的自然言語処理システム(例えば、ヘルスケア、ファイナンス、教育)は、複数のコンポーネント間の相互運用を伴う。
我々は,このような高度なNLPの高速な開発を支援するために,統一的なオープンソースフレームワークを構築した。
論文 参考訳(メタデータ) (2021-03-02T16:19:44Z) - Experimental Evaluation of Deep Learning models for Marathi Text
Classification [0.0]
CNN, LSTM, ULMFiT, BERT ベースのモデルを, 2つの公開 Marathi テキスト分類データセットで評価する。
CNNとLSTMに基づく基本単層モデルとFastTextの埋め込みは、利用可能なデータセット上でBERTベースのモデルと同等に動作することを示す。
論文 参考訳(メタデータ) (2021-01-13T06:21:27Z) - N-LTP: An Open-source Neural Language Technology Platform for Chinese [68.58732970171747]
textttN-は、中国の6つの基本的なNLPタスクをサポートする、オープンソースのニューラルネットワークテクノロジプラットフォームである。
textttN-は、中国のタスク間で共有知識をキャプチャする利点がある共有事前学習モデルを使用することで、マルチタスクフレームワークを採用する。
論文 参考訳(メタデータ) (2020-09-24T11:45:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。