論文の概要: Hierarchical Text Classification of Urdu News using Deep Neural Network
- arxiv url: http://arxiv.org/abs/2107.03141v1
- Date: Wed, 7 Jul 2021 11:06:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 21:00:04.256229
- Title: Hierarchical Text Classification of Urdu News using Deep Neural Network
- Title(参考訳): ディープニューラルネットワークを用いたウルドゥーニュースの階層的テキスト分類
- Authors: Taimoor Ahmed Javed, Waseem Shahzad, Umair Arshad
- Abstract要約: 本稿では,ウルドゥー語におけるニュースの階層的テキスト分類のためのディープラーニングモデルを提案する。
スポーツ、テクノロジー、エンターテイメントという8つのジャンルに属する8つのオンラインニュースサイトから51,325の文章で構成されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Digital text is increasing day by day on the internet. It is very challenging
to classify a large and heterogeneous collection of data, which require
improved information processing methods to organize text. To classify large
size of corpus, one common approach is to use hierarchical text classification,
which aims to classify textual data in a hierarchical structure. Several
approaches have been proposed to tackle classification of text but most of the
research has been done on English language. This paper proposes a deep learning
model for hierarchical text classification of news in Urdu language -
consisting of 51,325 sentences from 8 online news websites belonging to the
following genres: Sports; Technology; and Entertainment. The objectives of this
paper are twofold: (1) to develop a large human-annotated dataset of news in
Urdu language for hierarchical text classification; and (2) to classify Urdu
news hierarchically using our proposed model based on LSTM mechanism named as
Hierarchical Multi-layer LSTMs (HMLSTM). Our model consists of two modules:
Text Representing Layer, for obtaining text representation in which we use
Word2vec embedding to transform the words to vector and Urdu Hierarchical LSTM
Layer (UHLSTML) an end-to-end fully connected deep LSTMs network to perform
automatic feature learning, we train one LSTM layer for each level of the class
hierarchy. We have performed extensive experiments on our self created dataset
named as Urdu News Dataset for Hierarchical Text Classification (UNDHTC). The
result shows that our proposed method is very effective for hierarchical text
classification and it outperforms baseline methods significantly and also
achieved good results as compare to deep neural model.
- Abstract(参考訳): デジタルテキストはインターネット上で日々増えています。
テキストを整理する情報処理方法の改善を必要とする大規模で異質なデータの集合を分類することは極めて困難である。
コーパスの大規模な分類には、階層構造におけるテキストデータの分類を目的とした階層的テキスト分類を用いるのが一般的である。
テキストの分類にはいくつかのアプローチが提案されているが、ほとんどの研究は英語で行われている。
本稿では,スポーツ,技術,エンタテインメントというジャンルに属する8つのオンラインニュースサイトから51,325文の文を,ウルドゥー語による階層的ニュース分類のための深層学習モデルを提案する。
本論文の目的は,(1)階層型テキスト分類のためのウルドゥー語で人手による注釈付きニュースデータセットを開発すること,(2)階層型多層LSTM(HMLSTM)と呼ばれるLSTM機構に基づいて提案したモデルを用いてウルドゥー語ニュースを階層型に分類することである。
テキスト表現レイヤは、ワード2vec埋め込みを用いて単語をベクトルに変換するテキスト表現と、クラス階層のレベル毎に1つのLSTM層をトレーニングする、エンドツーエンドの完全接続深層LSTMネットワークであるUrdu Hierarchical LSTM Layer(UHLSTML)の2つのモジュールから構成される。
我々は,urdu news dataset for hierarchy text classification (undhtc) という自己作成データセットについて広範な実験を行った。
その結果,提案手法は階層的テキスト分類に非常に有効であり,ベースライン法を大幅に上回り,ディープニューラルモデルと比較して良好な結果を得た。
関連論文リスト
- Adaptable and Reliable Text Classification using Large Language Models [7.962669028039958]
本稿では,Large Language Models(LLMs)を活用した適応的で信頼性の高いテキスト分類パラダイムを提案する。
我々は、4つの多様なデータセット上で、複数のLLM、機械学習アルゴリズム、ニューラルネットワークベースのアーキテクチャの性能を評価した。
システムの性能は、少数ショットや微調整の戦略によってさらに向上することができる。
論文 参考訳(メタデータ) (2024-05-17T04:05:05Z) - TELEClass: Taxonomy Enrichment and LLM-Enhanced Hierarchical Text Classification with Minimal Supervision [41.05874642535256]
階層的なテキスト分類は、ラベル分類における各文書を一連のクラスに分類することを目的としている。
初期の研究は、大量の人間の注釈付きデータを必要とする完全または半教師付き手法に重点を置いていた。
我々は、最小限の監督量で階層的なテキスト分類に取り組んでおり、各ノードのクラス名のみを唯一の監督として使用しています。
論文 参考訳(メタデータ) (2024-02-29T22:26:07Z) - HiGen: Hierarchy-Aware Sequence Generation for Hierarchical Text
Classification [19.12354692458442]
階層的テキスト分類 (HTC) は、マルチラベルテキスト分類における複雑なサブタスクである。
動的テキスト表現を符号化する言語モデルを利用したテキスト生成フレームワークHiGenを提案する。
論文 参考訳(メタデータ) (2024-01-24T04:44:42Z) - A multi-model-based deep learning framework for short text multiclass
classification with the imbalanced and extremely small data set [0.6875312133832077]
本稿では,不均衡かつ極めて小さなデータセットを持つ短文マルチクラス分類のための,マルチモデルに基づくディープラーニングフレームワークを提案する。
精度、リコール、精度、F1スコアの点で最先端のベースライン性能を維持している。
論文 参考訳(メタデータ) (2022-06-24T00:51:02Z) - Many-Class Text Classification with Matching [65.74328417321738]
textbfText textbfClassification をテキストとラベル間のtextbfMatching 問題として定式化し,TCM というシンプルなフレームワークを提案する。
従来のテキスト分類手法と比較して、TCMは分類ラベルのきめ細かい意味情報を活用している。
論文 参考訳(メタデータ) (2022-05-23T15:51:19Z) - Hierarchical Neural Network Approaches for Long Document Classification [3.6700088931938835]
我々は、より効率的な表現を効率よく捉えるために、事前訓練された普遍文(USE)と変換器からの双方向表現(BERT)を階層的に採用する。
提案するモデルは概念的に単純であり,入力データをチャンクに分割し,BERTとUSEのベースモデルに渡す。
USE + CNN/LSTM はスタンドアローンのベースラインよりも優れており、BERT + CNN/LSTM はスタンドアローンのベースラインと同等である。
論文 参考訳(メタデータ) (2022-01-18T07:17:40Z) - Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.43249184357053]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。
このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (2021-11-04T09:29:16Z) - Hierarchical Heterogeneous Graph Representation Learning for Short Text
Classification [60.233529926965836]
短文分類のためのグラフニューラルネットワーク(GNN)に基づく ShiNE と呼ばれる新しい手法を提案する。
まず,短文データセットを単語レベル成分グラフからなる階層的不均一グラフとしてモデル化する。
そして、類似した短いテキスト間の効果的なラベル伝搬を容易にするショート文書グラフを動的に学習する。
論文 参考訳(メタデータ) (2021-10-30T05:33:05Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - Train your classifier first: Cascade Neural Networks Training from upper
layers to lower layers [54.47911829539919]
我々は,高品質な分類器を探索するアルゴリズムとして見ることのできる,新しいトップダウン学習手法を開発した。
本研究では,自動音声認識(ASR)タスクと言語モデリングタスクについて検討した。
提案手法は,Wall Street Journal 上でのリカレントニューラルネットワーク ASR モデル,Switchboard 上での自己注意型 ASR モデル,WikiText-2 上での AWD-LSTM 言語モデルなど,一貫して改善されている。
論文 参考訳(メタデータ) (2021-02-09T08:19:49Z) - Depth-Adaptive Graph Recurrent Network for Text Classification [71.20237659479703]
S-LSTM(Sentence-State LSTM)は、高効率なグラフリカレントネットワークである。
そこで本研究では,S-LSTMの深度適応機構を提案する。
論文 参考訳(メタデータ) (2020-02-29T03:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。