論文の概要: BNLP: Natural language processing toolkit for Bengali language
- arxiv url: http://arxiv.org/abs/2102.00405v1
- Date: Sun, 31 Jan 2021 07:56:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 05:49:37.015335
- Title: BNLP: Natural language processing toolkit for Bengali language
- Title(参考訳): BNLP:ベンガル語のための自然言語処理ツールキット
- Authors: Sagor Sarker
- Abstract要約: BNLPはベンガル語のためのオープンソースの言語処理ツールキットである。
トークン化、ワード埋め込み、POSタグ付け、NERタグ付け機能で構成される。
BNLPはベンガルの研究コミュニティで広く利用されており、16Kダウンロード、119の星と31のフォークがある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: BNLP is an open source language processing toolkit for Bengali language
consisting with tokenization, word embedding, POS tagging, NER tagging
facilities. BNLP provides pre-trained model with high accuracy to do model
based tokenization, embedding, POS tagging, NER tagging task for Bengali
language. BNLP pre-trained model achieves significant results in Bengali text
tokenization, word embedding, POS tagging and NER tagging task. BNLP is using
widely in the Bengali research communities with 16K downloads, 119 stars and 31
forks. BNLP is available at https://github.com/sagorbrur/bnlp.
- Abstract(参考訳): BNLPは、トークン化、単語埋め込み、POSタグ付け、NERタグ付け機能を備えたBengali言語のためのオープンソースの言語処理ツールキットです。
BNLPは、モデルベースのトークン化、埋め込み、POSタグ付け、Bengali言語のNERタグ付けタスクを行うための高精度な事前トレーニングモデルを提供します。
BNLPプリトレーニングモデルは、Bengaliテキストトークン化、単語埋め込み、POSタグ付け、NERタグ付けタスクで重要な結果をもたらします。
BNLPは16Kダウンロード、119スター、31フォークのベンガル研究コミュニティで広く使用されています。
BNLPはhttps://github.com/sagorbrur/bnlp.comで入手できる。
関連論文リスト
- Multichannel Attention Networks with Ensembled Transfer Learning to Recognize Bangla Handwritten Charecter [1.5236380958983642]
この研究では、アンサンブルトランスファーラーニングとマルチチャネルアテンションネットワークを備えた畳み込みニューラルネットワーク(CNN)を用いた。
我々は、CAMTERdb 3.1.2データセットを用いて提案モデルを評価し、生データセットの92%、前処理データセットの98.00%の精度を達成した。
論文 参考訳(メタデータ) (2024-08-20T15:51:01Z) - Too Late to Train, Too Early To Use? A Study on Necessity and Viability of Low-Resource Bengali LLMs [2.309018557701645]
低リソース言語専用の英語指向の大規模言語モデルの必要性について検討する。
オープンウェイトおよびクローズドソースLLMの性能を、微調整エンコーダデコーダモデルと比較する。
LLMは一般的に推論タスクに優れるが,Bengaliスクリプト生成を必要とするタスクのパフォーマンスは不整合である。
論文 参考訳(メタデータ) (2024-06-29T11:50:16Z) - DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - mahaNLP: A Marathi Natural Language Processing Library [0.4499833362998489]
本稿では,オープンソースの自然言語処理(NLP)ライブラリであるmahaNLPについて述べる。
NLPの分野では、低リソースのインドの言語であるMarathiのサポートを強化することを目指している。
論文 参考訳(メタデータ) (2023-11-05T06:59:59Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Number Entity Recognition [65.80137628972312]
番号は他のワードトークンと同様に、自然言語処理(NLP)モデルを構築し、デプロイするテキストの必須コンポーネントである。
本研究では、最先端のNLPモデルの可能性を活用し、関連するタスクにおける性能向上能力の伝達を試みる。
提案した数値をエンティティに分類することで,手作りのFill-In-The-Blank (FITB)タスクや,関節埋め込みを用いた質問応答など,NLPモデルの性能が向上する。
論文 参考訳(メタデータ) (2022-05-07T05:22:43Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - Bengali Handwritten Grapheme Classification: Deep Learning Approach [0.0]
画像中のベンガルグラフの3つの構成要素を分類することが課題となるKaggleコンペティション citek_link に参加する。
我々は,Multi-Layer Perceptron(MLP)やResNet50の現状など,既存のニューラルネットワークモデルの性能について検討する。
そこで我々は,ベンガル語文法分類のための独自の畳み込みニューラルネットワーク(CNN)モデルを提案し,検証根の精度95.32%,母音の精度98.61%,子音の精度98.76%を示した。
論文 参考訳(メタデータ) (2021-11-16T06:14:59Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Not Low-Resource Anymore: Aligner Ensembling, Batch Filtering, and New
Datasets for Bengali-English Machine Translation [6.2418269277908065]
ベンガル語は世界で7番目に広く話されている言語であるにもかかわらず、資源不足のため機械翻訳文学にはあまり注目されていない。
我々はBengali用にカスタマイズされた文セグメンタを構築し、低リソース環境における並列コーパス生成のための2つの新しい手法を提案する。
セグメンタと2つの手法を組み合わせることで、275万文対からなる高品質なベンガル英語並列コーパスをコンパイルする。
論文 参考訳(メタデータ) (2020-09-20T06:06:27Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。