論文の概要: Tuning Traditional Language Processing Approaches for Pashto Text
Classification
- arxiv url: http://arxiv.org/abs/2305.03737v1
- Date: Thu, 4 May 2023 22:57:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 19:52:30.120015
- Title: Tuning Traditional Language Processing Approaches for Pashto Text
Classification
- Title(参考訳): パシュトテキスト分類のための従来の言語処理手法のチューニング
- Authors: Jawid Ahmad Baktash, Mursal Dawodi, Mohammad Zarif Joya, Nematullah
Hassanzada
- Abstract要約: 本研究の目的は,Pashto自動テキスト分類システムの構築である。
本研究は、統計的およびニューラルネットワーク機械学習技術の両方を含む複数のモデルを比較する。
本研究では,分類アルゴリズムとTFIDF特徴抽出法を用いて,平均試験精度94%を得た。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Today text classification becomes critical task for concerned individuals for
numerous purposes. Hence, several researches have been conducted to develop
automatic text classification for national and international languages.
However, the need for an automatic text categorization system for local
languages is felt. The main aim of this study is to establish a Pashto
automatic text classification system. In order to pursue this work, we built a
Pashto corpus which is a collection of Pashto documents due to the
unavailability of public datasets of Pashto text documents. Besides, this study
compares several models containing both statistical and neural network machine
learning techniques including Multilayer Perceptron (MLP), Support Vector
Machine (SVM), K Nearest Neighbor (KNN), decision tree, gaussian na\"ive Bayes,
multinomial na\"ive Bayes, random forest, and logistic regression to discover
the most effective approach. Moreover, this investigation evaluates two
different feature extraction methods including unigram, and Time Frequency
Inverse Document Frequency (IFIDF). Subsequently, this research obtained
average testing accuracy rate 94% using MLP classification algorithm and TFIDF
feature extraction method in this context.
- Abstract(参考訳): 今日、テキスト分類は多くの目的のために関係する個人にとって重要な課題となっている。
そのため、国語・国際語の自動テキスト分類を開発するためにいくつかの研究がなされている。
しかし、ローカル言語のための自動テキスト分類システムの必要性を感じている。
本研究の目的は,Pashto自動テキスト分類システムの構築である。
この作業を追求するため,Pashto コーパスを構築した。これは Pashto 文書の公開データセットが利用できないため,Pashto ドキュメントのコレクションである。
さらに,マルチレイヤーパーセプトロン (MLP), サポートベクトルマシン (SVM), K Nearest Neighbor (KNN), 決定木, Gaussian na\"ive Bayes, multinomial na\"ive Bayes, ランダムフォレスト, ロジスティック回帰といった,統計的およびニューラルネットワーク機械学習技術を含むモデルを比較し,最も効果的なアプローチを発見する。
さらに、ユニグラムとIFIDF(Time Frequency Inverse Document Frequency)を含む2種類の特徴抽出手法について検討した。
そこで本研究では,mlp分類法とtfidf特徴抽出法を用いて,平均試験精度94%を得た。
関連論文リスト
- Adaptable and Reliable Text Classification using Large Language Models [7.962669028039958]
本稿では,Large Language Models(LLMs)を活用した適応的で信頼性の高いテキスト分類パラダイムを提案する。
我々は、4つの多様なデータセット上で、複数のLLM、機械学習アルゴリズム、ニューラルネットワークベースのアーキテクチャの性能を評価した。
システムの性能は、少数ショットや微調整の戦略によってさらに向上することができる。
論文 参考訳(メタデータ) (2024-05-17T04:05:05Z) - KInIT at SemEval-2024 Task 8: Fine-tuned LLMs for Multilingual Machine-Generated Text Detection [0.0]
SemEval-2024 Task 8は、マルチジェネレータ、マルチドメイン、マルチランガルブラックボックスマシン生成テキスト検出に重点を置いている。
提案手法は,第4位にランクインし,勝者のわずか1ポイント未満の競争結果を得た。
論文 参考訳(メタデータ) (2024-02-21T10:09:56Z) - A Comparative Study on TF-IDF feature Weighting Method and its Analysis
using Unstructured Dataset [0.5156484100374058]
用語周波数-逆文書周波数(TF-IDF)と自然言語処理(NLP)は、テキスト分類において最もよく用いられる情報検索手法である。
本研究では,非構造化データのテキスト分類における特徴重み付け手法の検討と解析を行った。
提案モデルは、IMDB映画レビューにおけるN-GramsとTF-IDFと、感情分析のためのAmazon Alexaレビューデータセットの2つの特徴を検討した。
論文 参考訳(メタデータ) (2023-08-08T04:27:34Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Enhancing Pashto Text Classification using Language Processing
Techniques for Single And Multi-Label Analysis [0.0]
本研究では,Pashtoテキストの自動分類システムの構築を目的とする。
平均テスト精度は94%だった。
DistilBERTのような事前訓練された言語表現モデルの使用は、有望な結果を示した。
論文 参考訳(メタデータ) (2023-05-04T23:11:31Z) - Machine and Deep Learning Methods with Manual and Automatic Labelling
for News Classification in Bangla Language [0.36832029288386137]
本稿では,バングラ語におけるニュース分類のための手動ラベリングと自動ラベリングを用いたいくつかの機械学習手法を提案する。
MLアルゴリズムは、ロジスティック回帰(LR)、グラディエントDescent(SGD)、サポートベクトルマシン(SVM)、ランダムフォレスト(RF)、K-Nearest Neighbour(KNN)である。
本研究では,LDA(Latent Dirichlet Allocation)を用いた自動ラベリング手法を開発し,単一ラベルおよび多ラベル記事分類法の性能について検討する。
論文 参考訳(メタデータ) (2022-10-19T21:53:49Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - Detecting Text Formality: A Study of Text Classification Approaches [78.11745751651708]
本研究は,統計的,ニューラルベース,トランスフォーマーベースの機械学習手法に基づく形式性検出手法の体系的研究を初めて行う。
単言語,多言語,言語横断の3種類の実験を行った。
本研究は,モノリンガルおよび多言語形式分類タスクのためのトランスフォーマーベースモデルに対するChar BiLSTMモデルの克服を示す。
論文 参考訳(メタデータ) (2022-04-19T16:23:07Z) - LeQua@CLEF2022: Learning to Quantify [76.22817970624875]
LeQua 2022は、テキストデータセットで'を定量化する方法を評価するための新しい実験室である。
本研究の目的は、バイナリ設定とシングルラベルのマルチクラス設定の両方において、学習方法の比較評価のための設定を提供することである。
論文 参考訳(メタデータ) (2021-11-22T14:54:20Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。