論文の概要: Benchmark Performance of Machine And Deep Learning Based Methodologies
for Urdu Text Document Classification
- arxiv url: http://arxiv.org/abs/2003.01345v1
- Date: Tue, 3 Mar 2020 05:49:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 21:50:01.002122
- Title: Benchmark Performance of Machine And Deep Learning Based Methodologies
for Urdu Text Document Classification
- Title(参考訳): urduテキスト文書分類のための機械学習と深層学習に基づく手法のベンチマーク性能
- Authors: Muhammad Nabeel Asim, Muhammad Usman Ghani, Muhammad Ali Ibrahim,
Sheraz Ahmad, Waqar Mahmood, Andreas Dengel
- Abstract要約: 本稿では,Urduテキスト文書分類におけるベンチマーク性能について述べる。
従来の機械学習に基づくUrduテキスト文書分類手法の性能への影響について検討する。
初めて、Urduテキスト文書分類のための様々な深層学習手法の性能を解析した。
- 参考スコア(独自算出の注目度): 4.1353427192071015
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In order to provide benchmark performance for Urdu text document
classification, the contribution of this paper is manifold. First, it pro-vides
a publicly available benchmark dataset manually tagged against 6 classes.
Second, it investigates the performance impact of traditional machine learning
based Urdu text document classification methodologies by embedding 10
filter-based feature selection algorithms which have been widely used for other
languages. Third, for the very first time, it as-sesses the performance of
various deep learning based methodologies for Urdu text document
classification. In this regard, for experimentation, we adapt 10 deep learning
classification methodologies which have pro-duced best performance figures for
English text classification. Fourth, it also investigates the performance
impact of transfer learning by utiliz-ing Bidirectional Encoder Representations
from Transformers approach for Urdu language. Fifth, it evaluates the integrity
of a hybrid approach which combines traditional machine learning based feature
engineering and deep learning based automated feature engineering. Experimental
results show that feature selection approach named as Normalised Dif-ference
Measure along with Support Vector Machine outshines state-of-the-art
performance on two closed source benchmark datasets CLE Urdu Digest 1000k, and
CLE Urdu Digest 1Million with a significant margin of 32%, and 13%
respectively. Across all three datasets, Normalised Differ-ence Measure
outperforms other filter based feature selection algorithms as it significantly
uplifts the performance of all adopted machine learning, deep learning, and
hybrid approaches. The source code and presented dataset are available at
Github repository.
- Abstract(参考訳): Urduテキスト文書分類のためのベンチマーク性能を提供するため,本論文の貢献は多様体である。
まず、手動で6つのクラスにタグ付けされた公開ベンチマークデータセットをプロビデントする。
第2に、他の言語で広く使われている10のフィルタに基づく特徴選択アルゴリズムを組み込むことにより、従来の機械学習に基づくurduテキスト文書分類手法の性能への影響について検討する。
第三に、ウルドゥのテキスト文書分類のための様々なディープラーニングベースの方法論のパフォーマンスを初めて取り上げている。
そこで本研究では,英語テキストの分類に最適な性能指標を導出する10の深層学習分類手法を提案する。
第4に,ウルドゥー語のトランスフォーマーアプローチによる双方向エンコーダ表現を活用し,トランスファー学習の性能への影響についても検討した。
第5に、従来の機械学習ベースの機能エンジニアリングとディープラーニングベースの自動機能エンジニアリングを組み合わせたハイブリッドアプローチの完全性を評価する。
実験の結果,2つのクローズドソースベンチマークデータセット cle urdu digest 1000k と cle urdu digest 1million をそれぞれ32%,サポートベクターマシンと共に正規化 dif-ference measure と名づける特徴選択手法が,それぞれ 13% のマージン率で達成された。
通常のDiffer-ence Measureは他のフィルタベースの特徴選択アルゴリズムよりも優れており、採用されている機械学習、ディープラーニング、ハイブリッドアプローチのパフォーマンスを大幅に向上させる。
ソースコードとデータセットはGithubリポジトリで公開されている。
関連論文リスト
- Feature Extraction Using Deep Generative Models for Bangla Text
Classification on a New Comprehensive Dataset [0.0]
バングラ語は世界で6番目に広く話されている言語であるにもかかわらず、テキストデータセットの不足によりほとんど注目を集めていない。
我々は7つのカテゴリで212,184のBangla文書の包括的なデータセットを収集し、注釈を付け、作成し、公開しました。
論文 参考訳(メタデータ) (2023-08-21T22:18:09Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Enhancing Pashto Text Classification using Language Processing
Techniques for Single And Multi-Label Analysis [0.0]
本研究では,Pashtoテキストの自動分類システムの構築を目的とする。
平均テスト精度は94%だった。
DistilBERTのような事前訓練された言語表現モデルの使用は、有望な結果を示した。
論文 参考訳(メタデータ) (2023-05-04T23:11:31Z) - Tuning Traditional Language Processing Approaches for Pashto Text
Classification [0.0]
本研究の目的は,Pashto自動テキスト分類システムの構築である。
本研究は、統計的およびニューラルネットワーク機械学習技術の両方を含む複数のモデルを比較する。
本研究では,分類アルゴリズムとTFIDF特徴抽出法を用いて,平均試験精度94%を得た。
論文 参考訳(メタデータ) (2023-05-04T22:57:45Z) - Zero-Shot Listwise Document Reranking with a Large Language Model [58.64141622176841]
本稿では,タスク固有の学習データを用いることなく,言語モデル(LRL)を用いたリスワイズ・リランカを提案する。
3つのTRECウェブサーチデータセットの実験により、LRLは第1段検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段再ランカとしても機能することが示された。
論文 参考訳(メタデータ) (2023-05-03T14:45:34Z) - Bag of Tricks for Training Data Extraction from Language Models [98.40637430115204]
公開データセットを用いてトレーニングデータ抽出を改善するための手法とベンチマーク手法について検討する。
実験結果から,これまで見過ごされていたいくつかのトリックが,トレーニングデータ抽出の成功に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2023-02-09T06:46:42Z) - UniTE: Unified Translation Evaluation [63.58868113074476]
UniTEは3つの評価タスクをすべて処理する能力に携わる最初の統合フレームワークである。
We testify our framework on WMT 2019 Metrics and WMT 2020 Quality Estimation benchmarks。
論文 参考訳(メタデータ) (2022-04-28T08:35:26Z) - LeQua@CLEF2022: Learning to Quantify [76.22817970624875]
LeQua 2022は、テキストデータセットで'を定量化する方法を評価するための新しい実験室である。
本研究の目的は、バイナリ設定とシングルラベルのマルチクラス設定の両方において、学習方法の比較評価のための設定を提供することである。
論文 参考訳(メタデータ) (2021-11-22T14:54:20Z) - An Attention Ensemble Approach for Efficient Text Classification of
Indian Languages [0.0]
本稿では,インド・デヴァナガリ文字を母語とするマラーティー語における短文文書の細かな技術領域識別について述べる。
畳み込みニューラルネットワークが生成する中間文表現と双方向の長期記憶とを合体させ,効率的なテキスト分類を実現するcnn-bilstm注意アンサンブルモデルを提案する。
実験結果から,提案モデルが与えられたタスクにおける各種ベースライン機械学習および深層学習モデルより優れ,89.57%,f1スコア0.8875の検証精度が得られた。
論文 参考訳(メタデータ) (2021-02-20T07:31:38Z) - Hierarchical Bi-Directional Self-Attention Networks for Paper Review
Rating Recommendation [81.55533657694016]
本稿では,階層型双方向自己注意ネットワークフレームワーク(HabNet)を提案する。
具体的には、文エンコーダ(レベル1)、レビュー内エンコーダ(レベル2)、レビュー間エンコーダ(レベル3)の3つのレベルで、論文レビューの階層構造を利用する。
我々は、最終的な受理決定を行う上で有用な予測者を特定することができ、また、数値的なレビュー評価とレビュアーが伝えるテキストの感情の不整合を発見するのに役立てることができる。
論文 参考訳(メタデータ) (2020-11-02T08:07:50Z) - A Precisely Xtreme-Multi Channel Hybrid Approach For Roman Urdu
Sentiment Analysis [0.8812173669205371]
本稿では,Word2vec,FastText,Gloveという,最も広く使われているアプローチを用いて構築した3つのニューラルワード埋め込みについて述べる。
公開されているベンチマークデータセットが欠如していることを考えると、初となるRoman Urduデータセットを提供しており、正、負、中立のクラスに対して注釈付けされた3241の感情で構成されている。
最先端の機械とディープラーニングの手法を、F1スコアで9%、F1スコアで4%で上回る、極めて極端なマルチチャネルハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2020-03-11T04:08:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。