論文の概要: Text classification dataset and analysis for Uzbek language
- arxiv url: http://arxiv.org/abs/2302.14494v1
- Date: Tue, 28 Feb 2023 11:21:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 16:53:03.347745
- Title: Text classification dataset and analysis for Uzbek language
- Title(参考訳): ウズベク語のテキスト分類データセットと解析
- Authors: Elmurod Kuriyozov, Ulugbek Salaev, Sanatbek Matlatipov, Gayrat
Matlatipov
- Abstract要約: まず、ウズベク語テキスト分類のための新しいデータセットを10の異なるニュースや報道サイトから収集した。
また、従来のbag-of-wordsモデルからディープラーニングアーキテクチャまで、さまざまなモデルの包括的評価を行う。
実験により、リカレントニューラルネットワーク(RNN)と畳み込みニューラルネットワーク(CNN)に基づくモデルがルールベースモデルより優れていることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text classification is an important task in Natural Language Processing
(NLP), where the goal is to categorize text data into predefined classes. In
this study, we analyse the dataset creation steps and evaluation techniques of
multi-label news categorisation task as part of text classification. We first
present a newly obtained dataset for Uzbek text classification, which was
collected from 10 different news and press websites and covers 15 categories of
news, press and law texts. We also present a comprehensive evaluation of
different models, ranging from traditional bag-of-words models to deep learning
architectures, on this newly created dataset. Our experiments show that the
Recurrent Neural Network (RNN) and Convolutional Neural Network (CNN) based
models outperform the rule-based models. The best performance is achieved by
the BERTbek model, which is a transformer-based BERT model trained on the Uzbek
corpus. Our findings provide a good baseline for further research in Uzbek text
classification.
- Abstract(参考訳): テキスト分類は自然言語処理(NLP)において重要な課題であり、テキストデータを事前に定義されたクラスに分類することが目的である。
本研究では,テキスト分類の一環として,マルチラベルニュース分類タスクのデータセット作成手順と評価手法を分析した。
まず,新たに得られたウズベク語テキスト分類データセットを10種類のニュース・報道サイトから収集し,15種類のニュース・報道・法律テキストを網羅した。
また,この新たなデータセット上で,従来の単語の袋モデルからディープラーニングアーキテクチャまで,さまざまなモデルの包括的評価を行う。
実験の結果,recurrent neural network (rnn) とconvolutional neural network (cnn) のモデルがルールベースモデルよりも優れていることがわかった。
最高のパフォーマンスは、Uzbekコーパスでトレーニングされた変換器ベースのBERTモデルであるBERTbekモデルによって達成される。
本研究は,ウズベク語テキスト分類のさらなる研究に有効なベースラインを提供する。
関連論文リスト
- Benchmarking Multilabel Topic Classification in the Kyrgyz Language [6.15353988889181]
我々は,ニュースサイト24.KGの収集および注釈付きデータに基づいて,キルギスにおけるトピック分類のための新しい公開ベンチマークを提案する。
我々は、古典的な統計モデルとニューラルモデルの両方をトレーニングし、評価し、スコアを報告し、結果を議論し、将来の仕事の方向性を提案します。
論文 参考訳(メタデータ) (2023-08-30T11:02:26Z) - A Dataset and Strong Baselines for Classification of Czech News Texts [0.0]
チェコ最大の分類データセットであるCZE-NEC(CZE-NEC)について述べる。
我々は、ニュースソース、ニュースカテゴリ、推論された著者の性別、週の日という4つの分類タスクを定義した。
本研究では,市販の大規模生成言語モデルにおいて,言語固有の事前学習エンコーダ解析が優れていることを示す。
論文 参考訳(メタデータ) (2023-07-20T07:47:08Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - SLCNN: Sentence-Level Convolutional Neural Network for Text
Classification [0.0]
畳み込みニューラルネットワーク(CNN)は,テキスト分類のタスクにおいて顕著な成功を収めている。
CNNを用いたテキスト分類のための新しいベースラインモデルが研究されている。
結果から,提案したモデルの性能は,特に長いドキュメントにおいて向上していることがわかった。
論文 参考訳(メタデータ) (2023-01-27T13:16:02Z) - A semantic hierarchical graph neural network for text classification [1.439766998338892]
本稿では,単語レベル,文レベル,文書レベルから対応する情報をそれぞれ抽出する階層型グラフニューラルネットワーク(HieGNN)を提案する。
いくつかのベンチマークデータセットの実験結果は、いくつかのベースライン手法と比較して、より良い、または類似した結果が得られる。
論文 参考訳(メタデータ) (2022-09-15T03:59:31Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - GraphFormers: GNN-nested Transformers for Representation Learning on
Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。
提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。
さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文 参考訳(メタデータ) (2021-05-06T12:20:41Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z) - Deep Learning Based Text Classification: A Comprehensive Review [75.8403533775179]
本稿では,近年開発されたテキスト分類のための150以上のディープラーニングモデルについてレビューする。
また、テキスト分類に広く使われている40以上の一般的なデータセットの要約も提供する。
論文 参考訳(メタデータ) (2020-04-06T02:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。