論文の概要: Web Document Categorization Using Naive Bayes Classifier and Latent
Semantic Analysis
- arxiv url: http://arxiv.org/abs/2006.01715v1
- Date: Tue, 2 Jun 2020 15:35:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 00:30:28.983246
- Title: Web Document Categorization Using Naive Bayes Classifier and Latent
Semantic Analysis
- Title(参考訳): Naive Bayes分類器と潜在意味分析を用いたWebドキュメント分類
- Authors: Alireza Saleh Sedghpour, Mohammad Reza Saleh Sedghpour
- Abstract要約: Webドキュメントの急速な成長は、ドキュメントをWeb上で効率的に分類する効率的なテクニックを必要とする。
LSAを用いて同一クラスにおける文書の類似性を向上し、分類精度を向上させるためのウェブ文書分類手法を提案する。
実験により, 前処理を用いることで, ネイブベイの精度と速度が向上することが確認された。
- 参考スコア(独自算出の注目度): 0.7310043452300736
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A rapid growth of web documents due to heavy use of World Wide Web
necessitates efficient techniques to efficiently classify the document on the
web. It is thus produced High volumes of data per second with high diversity.
Automatically classification of these growing amounts of web document is One of
the biggest challenges facing us today. Probabilistic classification algorithms
such as Naive Bayes have become commonly used for web document classification.
This problem is mainly because of the irrelatively high classification accuracy
on plenty application areas as well as their lack of support to handle high
dimensional and sparse data which is the exclusive characteristics of textual
data representation. also it is common to Lack of attention and support the
semantic relation between words using traditional feature selection method When
dealing with the big data and large-scale web documents. In order to solve the
problem, we proposed a method for web document classification that uses LSA to
increase similarity of documents under the same class and improve the
classification precision. Using this approach, we designed a faster and much
accurate classifier for Web Documents. Experimental results have shown that
using the mentioned preprocessing can improve accuracy and speed of Naive Bayes
availably, the precision and recall metrics have indicated the improvement.
- Abstract(参考訳): World Wide Webの多用によるWebドキュメントの急速な増加は、Web上のドキュメントを効率的に分類する効率的なテクニックを必要とする。
そのため、1秒間に大量のデータを生成し、高い多様性を持つ。
これらの増大するwebドキュメントの自動分類は、今日私たちが直面している最大の課題の1つです。
Naive Bayesのような確率的分類アルゴリズムは、Webドキュメントの分類に一般的に使われている。
この問題は主に、大量のアプリケーション領域における非相関的に高い分類精度と、テキストデータ表現の排他的特徴である高次元およびスパースデータを扱うためのサポートの欠如が原因である。
また,ビッグデータや大規模Webドキュメントを扱う場合,従来の特徴選択手法による単語間の意味的関係の欠如やサポートも一般的である。
そこで本研究では, LSA を用いた Web 文書分類手法を提案し,同一クラスにおける文書の類似性を向上し, 分類精度を向上させる。
このアプローチを用いて,Webドキュメントの高速かつ高精度な分類器を設計した。
実験の結果, 先行処理により, 既往ベイの精度と速度が向上し, 精度とリコールの指標が改善傾向を示した。
関連論文リスト
- Document Type Classification using File Names [7.130525292849283]
迅速な文書分類は、デジタル法医学や大規模メディア分類といった、時間に敏感ないくつかの応用において重要である。
重厚なディープラーニングモデルに依存する従来のアプローチは、膨大な入力データセットよりも高い推論時間のために不足している。
本稿では、TF-IDF特徴抽出に基づくトークン化手法と組み合わせ、軽量教師付き学習モデルを用いた手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T01:42:19Z) - Perplexed by Quality: A Perplexity-based Method for Adult and Harmful
Content Detection in Multilingual Heterogeneous Web Data [0.0]
我々は多言語不均一なWebデータにおいて、成人と有害なコンテンツを検出する様々な方法を探究する。
我々は、成人および有害なテキストデータのみを訓練し、与えられたしきい値以上の難易度値の文書を選択する。
このアプローチは、文書を事実上2つの異なるグループにクラスタリングし、パープレキシティのしきい値の選択を大幅に促進します。
論文 参考訳(メタデータ) (2022-12-20T17:14:45Z) - Learning Diverse Document Representations with Deep Query Interactions
for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。
本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文 参考訳(メタデータ) (2022-08-08T16:00:55Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Efficient Classification of Long Documents Using Transformers [13.927622630633344]
様々なベースラインと多様なデータセットに対して測定された相対的有効性を評価する。
結果として、より複雑なモデルは、単純なベースラインを上回り、データセット間で一貫性のないパフォーマンスを得ることができないことがしばしば示される。
論文 参考訳(メタデータ) (2022-03-21T18:36:18Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - An Efficient and Accurate Rough Set for Feature Selection,
Classification and Knowledge Representation [89.5951484413208]
本稿では, 特徴選択, 分類, 知識表現を同時に実現する, 粗集合に基づく強力なデータマイニング手法を提案する。
まず, ノイズ特性の処理において, 粗集合の非効率性について検討し, 相対的重要度と呼ばれる特性のロバストな測定法を提案する。
公開ベンチマークデータセットによる実験結果から,提案フレームワークは7つの人気や最先端の機能選択手法よりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-12-29T12:45:49Z) - Comparative Study of Long Document Classification [0.0]
我々は、標準的な機械学習アプローチを用いて、長い文書分類を再考する。
単純なNaive Bayesから6つの標準テキスト分類データセット上の複雑なBERTまで、さまざまなアプローチをベンチマークする。
論文 参考訳(メタデータ) (2021-11-01T04:51:51Z) - Conical Classification For Computationally Efficient One-Class Topic
Determination [0.0]
本稿では,特定のトピックに関連する文書を識別するコニカル分類手法を提案する。
分析の結果、我々のアプローチはデータセットの予測能力が高く、計算も高速であることがわかった。
論文 参考訳(メタデータ) (2021-10-31T01:27:12Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。