論文の概要: Machine and Deep Learning Methods with Manual and Automatic Labelling
for News Classification in Bangla Language
- arxiv url: http://arxiv.org/abs/2210.10903v1
- Date: Wed, 19 Oct 2022 21:53:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 14:41:56.913141
- Title: Machine and Deep Learning Methods with Manual and Automatic Labelling
for News Classification in Bangla Language
- Title(参考訳): バングラ語ニュース分類のための自動ラベリングと自動ラベリングを用いた機械学習と深層学習
- Authors: Istiak Ahmad, Fahad AlQurashi, Rashid Mehmood
- Abstract要約: 本稿では,バングラ語におけるニュース分類のための手動ラベリングと自動ラベリングを用いたいくつかの機械学習手法を提案する。
MLアルゴリズムは、ロジスティック回帰(LR)、グラディエントDescent(SGD)、サポートベクトルマシン(SVM)、ランダムフォレスト(RF)、K-Nearest Neighbour(KNN)である。
本研究では,LDA(Latent Dirichlet Allocation)を用いた自動ラベリング手法を開発し,単一ラベルおよび多ラベル記事分類法の性能について検討する。
- 参考スコア(独自算出の注目度): 0.36832029288386137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research in Natural Language Processing (NLP) has increasingly become
important due to applications such as text classification, text mining,
sentiment analysis, POS tagging, named entity recognition, textual entailment,
and many others. This paper introduces several machine and deep learning
methods with manual and automatic labelling for news classification in the
Bangla language. We implemented several machine (ML) and deep learning (DL)
algorithms. The ML algorithms are Logistic Regression (LR), Stochastic Gradient
Descent (SGD), Support Vector Machine (SVM), Random Forest (RF), and K-Nearest
Neighbour (KNN), used with Bag of Words (BoW), Term Frequency-Inverse Document
Frequency (TF-IDF), and Doc2Vec embedding models. The DL algorithms are Long
Short-Term Memory (LSTM), Bidirectional LSTM (BiLSTM), Gated Recurrent Unit
(GRU), and Convolutional Neural Network (CNN), used with Word2vec, Glove, and
FastText word embedding models. We develop automatic labelling methods using
Latent Dirichlet Allocation (LDA) and investigate the performance of
single-label and multi-label article classification methods. To investigate
performance, we developed from scratch Potrika, the largest and the most
extensive dataset for news classification in the Bangla language, comprising
185.51 million words and 12.57 million sentences contained in 664,880 news
articles in eight distinct categories, curated from six popular online news
portals in Bangladesh for the period 2014-2020. GRU and Fasttext with 91.83%
achieve the highest accuracy for manually-labelled data. For the automatic
labelling case, KNN and Doc2Vec at 57.72% and 75% achieve the highest accuracy
for single-label and multi-label data, respectively. The methods developed in
this paper are expected to advance research in Bangla and other languages.
- Abstract(参考訳): 自然言語処理(nlp)の研究は、テキスト分類、テキストマイニング、感情分析、posタグ付け、名前付きエンティティ認識、テキストの包含など、多くの応用によってますます重要になっている。
本稿では,バングラ語におけるニュース分類のための手動ラベリングと自動ラベリングを用いたいくつかの機械学習手法を提案する。
機械学習(ML)とディープラーニング(DL)アルゴリズムを実装した。
MLアルゴリズムには、Logistic Regression (LR)、Stochastic Gradient Descent (SGD)、Support Vector Machine (SVM)、Random Forest (RF)、K-Nearest Neighbour (KNN)、Bag of Words (BoW)、Term Frequency-Inverse Document Frequency (TF-IDF)、Doc2Vec組み込みモデルがある。
DLアルゴリズムは、Long Short-Term Memory (LSTM)、Bidirectional LSTM (BiLSTM)、Gated Recurrent Unit (GRU)、Convolutional Neural Network (CNN)であり、Word2vec、Glove、FastTextのワード埋め込みモデルで使用される。
本研究では,LDA(Latent Dirichlet Allocation)を用いた自動ラベリング手法を開発し,単一ラベルおよび多ラベル記事分類法の性能について検討する。
2014~2020年の間にバングラデシュの6つの人気のあるオンラインニュースポータルから収集された664,880のニュース記事に含まれる185.51万の単語と1257万の文からなる、バングラデシュ語におけるニュース分類のための最大かつ最も広範なデータセットであるPotrikaの開発を行った。
91.83%のGRUとFasttextは、手作業によるデータの精度が最も高い。
自動ラベリングの場合、KNNとDoc2Vecはそれぞれ57.72%と75%で、シングルラベルとマルチラベルのデータが最も精度が高い。
本稿では,バングラ語やその他の言語の研究を進展させることが期待されている。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - Enhancing Pashto Text Classification using Language Processing
Techniques for Single And Multi-Label Analysis [0.0]
本研究では,Pashtoテキストの自動分類システムの構築を目的とする。
平均テスト精度は94%だった。
DistilBERTのような事前訓練された言語表現モデルの使用は、有望な結果を示した。
論文 参考訳(メタデータ) (2023-05-04T23:11:31Z) - Tuning Traditional Language Processing Approaches for Pashto Text
Classification [0.0]
本研究の目的は,Pashto自動テキスト分類システムの構築である。
本研究は、統計的およびニューラルネットワーク機械学習技術の両方を含む複数のモデルを比較する。
本研究では,分類アルゴリズムとTFIDF特徴抽出法を用いて,平均試験精度94%を得た。
論文 参考訳(メタデータ) (2023-05-04T22:57:45Z) - Part-of-Speech Tagging of Odia Language Using statistical and Deep
Learning-Based Approaches [0.0]
本研究は,条件付きランダムフィールド (CRF) と深層学習に基づくアプローチ (CNN と Bi-LSTM) を用いて,Odia の音声タグ作成を支援することを目的とする。
文字列の特徴を持つBi-LSTMモデルと事前学習した単語ベクトルは,最先端の結果を得た。
論文 参考訳(メタデータ) (2022-07-07T12:15:23Z) - Trustable Co-label Learning from Multiple Noisy Annotators [68.59187658490804]
監督されたディープラーニングは、大量の注釈付き例に依存している。
典型的な方法は、複数のノイズアノテータから学習することである。
本稿では,emphTrustable Co-label Learning (TCL)と呼ばれるデータ効率のよい手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T16:57:00Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Hierarchical Text Classification of Urdu News using Deep Neural Network [0.0]
本稿では,ウルドゥー語におけるニュースの階層的テキスト分類のためのディープラーニングモデルを提案する。
スポーツ、テクノロジー、エンターテイメントという8つのジャンルに属する8つのオンラインニュースサイトから51,325の文章で構成されている。
論文 参考訳(メタデータ) (2021-07-07T11:06:11Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - An Attention Ensemble Approach for Efficient Text Classification of
Indian Languages [0.0]
本稿では,インド・デヴァナガリ文字を母語とするマラーティー語における短文文書の細かな技術領域識別について述べる。
畳み込みニューラルネットワークが生成する中間文表現と双方向の長期記憶とを合体させ,効率的なテキスト分類を実現するcnn-bilstm注意アンサンブルモデルを提案する。
実験結果から,提案モデルが与えられたタスクにおける各種ベースライン機械学習および深層学習モデルより優れ,89.57%,f1スコア0.8875の検証精度が得られた。
論文 参考訳(メタデータ) (2021-02-20T07:31:38Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。