論文の概要: Text classification dataset and analysis for Uzbek language
- arxiv url: http://arxiv.org/abs/2302.14494v1
- Date: Tue, 28 Feb 2023 11:21:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 16:53:03.347745
- Title: Text classification dataset and analysis for Uzbek language
- Title(参考訳): ウズベク語のテキスト分類データセットと解析
- Authors: Elmurod Kuriyozov, Ulugbek Salaev, Sanatbek Matlatipov, Gayrat
Matlatipov
- Abstract要約: まず、ウズベク語テキスト分類のための新しいデータセットを10の異なるニュースや報道サイトから収集した。
また、従来のbag-of-wordsモデルからディープラーニングアーキテクチャまで、さまざまなモデルの包括的評価を行う。
実験により、リカレントニューラルネットワーク(RNN)と畳み込みニューラルネットワーク(CNN)に基づくモデルがルールベースモデルより優れていることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text classification is an important task in Natural Language Processing
(NLP), where the goal is to categorize text data into predefined classes. In
this study, we analyse the dataset creation steps and evaluation techniques of
multi-label news categorisation task as part of text classification. We first
present a newly obtained dataset for Uzbek text classification, which was
collected from 10 different news and press websites and covers 15 categories of
news, press and law texts. We also present a comprehensive evaluation of
different models, ranging from traditional bag-of-words models to deep learning
architectures, on this newly created dataset. Our experiments show that the
Recurrent Neural Network (RNN) and Convolutional Neural Network (CNN) based
models outperform the rule-based models. The best performance is achieved by
the BERTbek model, which is a transformer-based BERT model trained on the Uzbek
corpus. Our findings provide a good baseline for further research in Uzbek text
classification.
- Abstract(参考訳): テキスト分類は自然言語処理(NLP)において重要な課題であり、テキストデータを事前に定義されたクラスに分類することが目的である。
本研究では,テキスト分類の一環として,マルチラベルニュース分類タスクのデータセット作成手順と評価手法を分析した。
まず,新たに得られたウズベク語テキスト分類データセットを10種類のニュース・報道サイトから収集し,15種類のニュース・報道・法律テキストを網羅した。
また,この新たなデータセット上で,従来の単語の袋モデルからディープラーニングアーキテクチャまで,さまざまなモデルの包括的評価を行う。
実験の結果,recurrent neural network (rnn) とconvolutional neural network (cnn) のモデルがルールベースモデルよりも優れていることがわかった。
最高のパフォーマンスは、Uzbekコーパスでトレーニングされた変換器ベースのBERTモデルであるBERTbekモデルによって達成される。
本研究は,ウズベク語テキスト分類のさらなる研究に有効なベースラインを提供する。
関連論文リスト
- Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Benchmarking Multilabel Topic Classification in the Kyrgyz Language [6.15353988889181]
我々は,ニュースサイト24.KGの収集および注釈付きデータに基づいて,キルギスにおけるトピック分類のための新しい公開ベンチマークを提案する。
我々は、古典的な統計モデルとニューラルモデルの両方をトレーニングし、評価し、スコアを報告し、結果を議論し、将来の仕事の方向性を提案します。
論文 参考訳(メタデータ) (2023-08-30T11:02:26Z) - A Dataset and Strong Baselines for Classification of Czech News Texts [0.0]
チェコ最大の分類データセットであるCZE-NEC(CZE-NEC)について述べる。
我々は、ニュースソース、ニュースカテゴリ、推論された著者の性別、週の日という4つの分類タスクを定義した。
本研究では,市販の大規模生成言語モデルにおいて,言語固有の事前学習エンコーダ解析が優れていることを示す。
論文 参考訳(メタデータ) (2023-07-20T07:47:08Z) - SLCNN: Sentence-Level Convolutional Neural Network for Text
Classification [0.0]
畳み込みニューラルネットワーク(CNN)は,テキスト分類のタスクにおいて顕著な成功を収めている。
CNNを用いたテキスト分類のための新しいベースラインモデルが研究されている。
結果から,提案したモデルの性能は,特に長いドキュメントにおいて向上していることがわかった。
論文 参考訳(メタデータ) (2023-01-27T13:16:02Z) - A semantic hierarchical graph neural network for text classification [1.439766998338892]
本稿では,単語レベル,文レベル,文書レベルから対応する情報をそれぞれ抽出する階層型グラフニューラルネットワーク(HieGNN)を提案する。
いくつかのベンチマークデータセットの実験結果は、いくつかのベースライン手法と比較して、より良い、または類似した結果が得られる。
論文 参考訳(メタデータ) (2022-09-15T03:59:31Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - GraphFormers: GNN-nested Transformers for Representation Learning on
Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。
提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。
さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文 参考訳(メタデータ) (2021-05-06T12:20:41Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - Deep Learning Based Text Classification: A Comprehensive Review [75.8403533775179]
本稿では,近年開発されたテキスト分類のための150以上のディープラーニングモデルについてレビューする。
また、テキスト分類に広く使われている40以上の一般的なデータセットの要約も提供する。
論文 参考訳(メタデータ) (2020-04-06T02:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。