論文の概要: Bangla Natural Language Processing: A Comprehensive Review of Classical,
Machine Learning, and Deep Learning Based Methods
- arxiv url: http://arxiv.org/abs/2105.14875v1
- Date: Mon, 31 May 2021 10:58:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:55:19.437668
- Title: Bangla Natural Language Processing: A Comprehensive Review of Classical,
Machine Learning, and Deep Learning Based Methods
- Title(参考訳): bangla自然言語処理:古典的,機械学習,深層学習に基づく手法の包括的レビュー
- Authors: Ovishake Sen, Mohtasim Fuad, MD. Nazrul Islam, Jakaria Rabbi, MD.
Kamrul Hasan, Awal Ahmed Fime, Md. Tahmid Hasan Fuad, Delowar Sikder, and MD.
Akil Raihan Iftee
- Abstract要約: バングラ語は世界で7番目に話される言語であり、2億6500万人の母国語話者と非母国語話者がいる。
英語は、オンラインリソース、技術知識、ジャーナル、ドキュメントの主要な言語である。
オンラインおよび技術分野において、Bangla言語の使用を容易にするため、多くの取り組みが進行中である。
- 参考スコア(独自算出の注目度): 3.441093402715499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Bangla language is the seventh most spoken language, with 265 million
native and non-native speakers worldwide. However, English is the predominant
language for online resources and technical knowledge, journals, and
documentation. Consequently, many Bangla-speaking people, who have limited
command of English, face hurdles to utilize English resources. To bridge the
gap between limited support and increasing demand, researchers conducted many
experiments and developed valuable tools and techniques to create and process
Bangla language materials. Many efforts are also ongoing to make it easy to use
the Bangla language in the online and technical domains. There are some review
papers to understand the past, previous, and future Bangla Natural Language
Processing (BNLP) trends. The studies are mainly concentrated on the specific
domains of BNLP, such as sentiment analysis, speech recognition, optical
character recognition, and text summarization. There is an apparent scarcity of
resources that contain a comprehensive study of the recent BNLP tools and
methods. Therefore, in this paper, we present a thorough review of 71 BNLP
research papers and categorize them into 11 categories, namely Information
Extraction, Machine Translation, Named Entity Recognition, Parsing, Parts of
Speech Tagging, Question Answering System, Sentiment Analysis, Spam and Fake
Detection, Text Summarization, Word Sense Disambiguation, and Speech Processing
and Recognition. We study articles published between 1999 to 2021, and 50\% of
the papers were published after 2015. We discuss Classical, Machine Learning
and Deep Learning approaches with different datasets while addressing the
limitations and current and future trends of the BNLP.
- Abstract(参考訳): バングラ語は世界第7位の言語であり、2億2500万人が母国語・非母語話者である。
しかし、英語はオンラインリソースや技術知識、ジャーナル、ドキュメントの主要な言語である。
その結果、多くのバングラ語話者は、英語の指導力に制限があり、英語の資源を利用するハードルに直面している。
限られた支援と需要の増加の間のギャップを埋めるため、研究者は多数の実験を行い、バングラ語資料の作成と加工のための貴重なツールや技術を開発した。
オンラインおよび技術領域でバングラ語を使いやすくするために、多くの取り組みが進行中である。
過去、過去、そして将来のBangla Natural Language Processing(BNLP)のトレンドを理解するためのいくつかのレビュー論文がある。
これらの研究は主に、感情分析、音声認識、光学文字認識、テキスト要約など、BNLPの特定の領域に集中している。
近年のBNLPツールや手法に関する包括的研究を含む資源の不足は明らかである。
そこで本稿では,71のbnlp研究論文の徹底的なレビューを行い,情報抽出,機械翻訳,名前付きエンティティ認識,解析,音声タグ処理,質問応答システム,感情分析,スパムと偽検出,テキスト要約,単語認識の曖昧化,音声処理と認識の11つのカテゴリに分類する。
1999年から2021年にかけて発行された論文を調査し、2015年以降の論文の50%を公表した。
BNLPの限界と現在のトレンドに対処しながら、異なるデータセットで古典的、機械学習、ディープラーニングのアプローチについて議論する。
関連論文リスト
- Multilingual Evaluation of Semantic Textual Relatedness [0.0]
意味的テクスト関係性(STR)は、言語的要素や話題、感情、視点といった非言語的要素を考慮して、表面的な単語重複を越えている。
以前のNLP研究は主に英語に焦点を合わせており、言語間の適用性を制限している。
Marathi、Hindi、スペイン語、英語でSTRを探索し、情報検索や機械翻訳などの可能性を解き放つ。
論文 参考訳(メタデータ) (2024-04-13T17:16:03Z) - Connecting the Dots: Leveraging Spatio-Temporal Graph Neural Networks
for Accurate Bangla Sign Language Recognition [2.624902795082451]
我々は,40語以上の611ビデオからなる単語レベルBandgla Sign Languageデータセット(BdSL40)を提案する。
これは単語レベルのBdSL認識に関する最初の研究であり、データセットはBangla Sign Language Dictionary (1997)を用いてインド手話(ISL)から転写された。
この研究は、BdSL、West Bengal Sign Language、ISL間の重要な語彙的および意味的類似点と、文献におけるBdSLのワードレベルデータセットの欠如を強調した。
論文 参考訳(メタデータ) (2024-01-22T18:52:51Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Expanding Pretrained Models to Thousands More Languages via
Lexicon-based Adaptation [133.7313847857935]
我々の研究は、NLPメソッドが現在の技術で不足している何千もの言語にどのように適応できるかを強調した。
3つのタスクにまたがる19の非表現言語に対して、我々の手法は、それぞれ追加のモノリンガルテキストによる最大5点と15点の改善をもたらす。
論文 参考訳(メタデータ) (2022-03-17T16:48:22Z) - A Review of Bangla Natural Language Processing Tasks and the Utility of
Transformer Models [2.5768647103950357]
研究コミュニティで利用可能なBangla NLPタスク、リソース、ツールについてレビューする。
我々は、現在最先端のアルゴリズムを用いて、9つのNLPタスクのために、さまざまなプラットフォームから収集されたデータセットをベンチマークした。
個人と統合されたデータセットを用いてその結果を報告し、今後の研究のためのデータを提供する。
論文 参考訳(メタデータ) (2021-07-08T13:49:46Z) - BanglaBERT: Combating Embedding Barrier for Low-Resource Language
Understanding [1.7000879291900044]
私たちはバングラ自然言語理解モデルを構築し、インターネット上のトップバングラのサイトから収集した18.6gbのデータに基づいてトレーニングした。
本モデルは,多言語ベースラインを上回り,前回の結果を1~6%上回った。
我々は、記述スクリプトを高リソースと共有しない低リソース言語のパフォーマンスを損なう多言語モデルの主な欠点を特定します。
論文 参考訳(メタデータ) (2021-01-01T09:28:45Z) - Deep Learning for Text Style Transfer: A Survey [71.8870854396927]
テキストスタイル転送は、生成したテキストの特定の属性を制御することを目的として、自然言語生成において重要なタスクである。
2017年の最初のニューラルテキストスタイル転送作業以降,100以上の代表的な記事を対象とした,ニューラルテキストスタイル転送の研究の体系的な調査を行う。
タスクの定式化、既存のデータセットとサブタスク、評価、並列データと非並列データの存在下での豊富な方法論について論じる。
論文 参考訳(メタデータ) (2020-11-01T04:04:43Z) - Deep Learning for Hindi Text Classification: A Comparison [6.8629257716723]
デヴァナガリ文字で書かれた形態的に豊かで低資源のヒンディー語を分類する研究は、大きなラベル付きコーパスがないために限られている。
本研究では,CNN,LSTM,注意に基づくモデル評価のために,英文データセットの翻訳版を用いた。
また,本論文は,一般的なテキスト分類手法のチュートリアルとしても機能する。
論文 参考訳(メタデータ) (2020-01-19T09:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。