論文の概要: Text Classification Using Hybrid Machine Learning Algorithms on Big Data
- arxiv url: http://arxiv.org/abs/2103.16624v1
- Date: Tue, 30 Mar 2021 19:02:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 14:51:09.829538
- Title: Text Classification Using Hybrid Machine Learning Algorithms on Big Data
- Title(参考訳): ビッグデータを用いたハイブリッド機械学習アルゴリズムを用いたテキスト分類
- Authors: D.C. Asogwa, S.O. Anigbogu, I.E. Onyenwe, F.A. Sani
- Abstract要約: 本研究では,2つの教師付き機械学習アルゴリズムとテキストマイニング技術を組み合わせてハイブリッドモデルを生成する。
その結果、ハイブリッドモデルはそれぞれ61.45%と69.21%のNa"ive BayesとSVMモデルに対して96.76%の精度を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there are unprecedented data growth originating from different
online platforms which contribute to big data in terms of volume, velocity,
variety and veracity (4Vs). Given this nature of big data which is
unstructured, performing analytics to extract meaningful information is
currently a great challenge to big data analytics. Collecting and analyzing
unstructured textual data allows decision makers to study the escalation of
comments/posts on our social media platforms. Hence, there is need for
automatic big data analysis to overcome the noise and the non-reliability of
these unstructured dataset from the digital media platforms. However, current
machine learning algorithms used are performance driven focusing on the
classification/prediction accuracy based on known properties learned from the
training samples. With the learning task in a large dataset, most machine
learning models are known to require high computational cost which eventually
leads to computational complexity. In this work, two supervised machine
learning algorithms are combined with text mining techniques to produce a
hybrid model which consists of Na\"ive Bayes and support vector machines (SVM).
This is to increase the efficiency and accuracy of the results obtained and
also to reduce the computational cost and complexity. The system also provides
an open platform where a group of persons with a common interest can share
their comments/messages and these comments classified automatically as legal or
illegal. This improves the quality of conversation among users. The hybrid
model was developed using WEKA tools and Java programming language. The result
shows that the hybrid model gave 96.76% accuracy as against the 61.45% and
69.21% of the Na\"ive Bayes and SVM models respectively.
- Abstract(参考訳): 近年,データ量,速度,多様性,妥当性(4Vs)の面でビッグデータに寄与する,さまざまなオンラインプラットフォームを起源とする前例のないデータ成長がある。
構造化されていないビッグデータの性質を考えると、意味のある情報を抽出する分析を行うことは、ビッグデータ分析にとって現在大きな課題です。
構造化されていないテキストデータの収集と分析により、意思決定者はソーシャルメディアプラットフォーム上でコメントや投稿のエスカレーションを研究することができる。
したがって、デジタルメディアプラットフォームからの非構造化データセットのノイズと信頼性を克服するために、自動的なビッグデータ分析が必要となる。
しかし、現在の機械学習アルゴリズムは、トレーニングサンプルから学習した既知の特性に基づく分類/予測精度に注目したパフォーマンス駆動である。
大規模なデータセットでの学習タスクでは、ほとんどの機械学習モデルは高い計算コストを必要とすることが知られており、結果として計算の複雑さをもたらす。
本研究では,2つの教師付き機械学習アルゴリズムをテキストマイニング手法と組み合わせて,Na\\"ive Bayesとサポートベクタマシン(SVM)からなるハイブリッドモデルを生成する。
これは、得られた結果の効率と正確性を向上し、計算コストと複雑さを低減することである。
このシステムはまた、共通の関心を持つ人々のグループがコメントやメッセージを共有し、これらのコメントを法的または違法に自動的に分類するオープンプラットフォームも提供する。
これにより、ユーザ間の会話の質が向上する。
ハイブリッドモデルはWEKAツールとJavaプログラミング言語を使って開発された。
その結果、ハイブリッドモデルはそれぞれ61.45%と69.21%のna\"ive bayesとsvmモデルに対して96.76%の精度を示した。
関連論文リスト
- Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。
データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。
ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文 参考訳(メタデータ) (2024-04-10T17:27:54Z) - A Novel Neural Network-Based Federated Learning System for Imbalanced
and Non-IID Data [2.9642661320713555]
ほとんどの機械学習アルゴリズムは、様々なソースから収集される大量のデータに大きく依存している。
この問題に対処するため、研究者らはフェデレーション学習を導入し、クライアントデータのプライバシーを確保することによって予測モデルを学習した。
本研究では,ニューラルネットワークに基づくフェデレーション学習システムを提案する。
論文 参考訳(メタデータ) (2023-11-16T17:14:07Z) - Training Deep Surrogate Models with Large Scale Online Learning [48.7576911714538]
ディープラーニングアルゴリズムは、PDEの高速解を得るための有効な代替手段として登場した。
モデルは通常、ソルバによって生成された合成データに基づいてトレーニングされ、ディスクに格納され、トレーニングのために読み返される。
ディープサロゲートモデルのためのオープンソースのオンライントレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-28T12:02:27Z) - Deep Sequence Models for Text Classification Tasks [0.007329200485567826]
自然言語処理(NLP)は、人間の多様で複雑な言語を理解するために機械を装備している。
一般的なテキスト分類アプリケーションには、情報検索、ニューストピックのモデリング、テーマ抽出、感情分析、スパム検出が含まれる。
RNN、GRU、LSTMといったシーケンスモデルは、長距離依存性を持つタスクのブレークスルーである。
その結果、ほとんどのモデルでは80%と94%の範囲で性能が向上した。
論文 参考訳(メタデータ) (2022-07-18T18:47:18Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Self-service Data Classification Using Interactive Visualization and
Interpretable Machine Learning [9.13755431537592]
Iterative Visual Logical (IVLC) は、解釈可能な機械学習アルゴリズムである。
IVLCは、医療領域における癌データのような機密で重要なデータを扱う際に特に有用である。
この章では、新しいコーディネートオーダー(COO)アルゴリズムと遺伝的アルゴリズムを組み合わせた自動分類手法を提案する。
論文 参考訳(メタデータ) (2021-07-11T05:39:14Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Synthetic Data: Opening the data floodgates to enable faster, more
directed development of machine learning methods [96.92041573661407]
機械学習における画期的な進歩の多くは、大量のリッチデータを利用できることに起因する。
多くの大規模データセットは、医療データなど高度に敏感であり、機械学習コミュニティでは広く利用できない。
プライバシー保証で合成データを生成することは、そのようなソリューションを提供します。
論文 参考訳(メタデータ) (2020-12-08T17:26:10Z) - It's the Best Only When It Fits You Most: Finding Related Models for
Serving Based on Dynamic Locality Sensitive Hashing [1.581913948762905]
トレーニングデータの作成は、生産や研究のためにディープラーニングモデルをデプロイするライフサイクルにおいて、しばしばボトルネックとなる。
本稿では,対象のデータセットと利用可能なモデルのトレーニングデータセットの類似性に基づいて,関連するモデルを検索してサービスするエンド・ツー・エンドプロセスを提案する。
論文 参考訳(メタデータ) (2020-10-13T22:52:13Z) - ARDA: Automatic Relational Data Augmentation for Machine Learning [23.570173866941612]
本稿では,データセットとデータレポジトリを入力とし,拡張データセットを出力するエンド・ツー・エンドシステムを提案する。
本システムは,(1)入力の様々な属性に基づいて,入力データとデータを検索し結合するフレームワークと,(2)入力データからノイズや不適切な特徴を抽出する効率的な特徴選択アルゴリズムの2つの特徴を有する。
論文 参考訳(メタデータ) (2020-03-21T21:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。