論文の概要: Text classification using machine learning methods
- arxiv url: http://arxiv.org/abs/2502.19801v1
- Date: Thu, 27 Feb 2025 06:20:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:58:57.763327
- Title: Text classification using machine learning methods
- Title(参考訳): 機械学習を用いたテキスト分類
- Authors: Bogdan Oancea,
- Abstract要約: 本稿では,機械学習を用いた製品の自動分類モデルの構築を目的とした実験結果について述べる。
製品名を数値ベクトルの形で持つことにより,自動分類のための機械学習手法のセットを考案した。
その結果,Support Vector Machines,Logistic Regression,Random Forestsの分類プロセスの精度が向上した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In this paper we present the results of an experiment aimed to use machine learning methods to obtain models that can be used for the automatic classification of products. In order to apply automatic classification methods, we transformed the product names from a text representation to numeric vectors, a process called word embedding. We used several embedding methods: Count Vectorization, TF-IDF, Word2Vec, FASTTEXT, and GloVe. Having the product names in a form of numeric vectors, we proceeded with a set of machine learning methods for automatic classification: Logistic Regression, Multinomial Naive Bayes, kNN, Artificial Neural Networks, Support Vector Machines, and Decision trees with several variants. The results show an impressive accuracy of the classification process for Support Vector Machines, Logistic Regression, and Random Forests. Regarding the word embedding methods, the best results were obtained with the FASTTEXT technique.
- Abstract(参考訳): 本稿では,機械学習を用いて製品の自動分類に使用できるモデルを得る実験結果について述べる。
自動分類法を適用するために, 商品名をテキスト表現から数値ベクトルに変換した。
我々は,数ベクトル化,TF-IDF,Word2Vec,FASTTEXT,GloVeといった埋め込み手法を用いた。
製品名を数値ベクトルの形式で持つことで,ロジスティック回帰,マルチノミアルネーブベイズ,kNN,人工ニューラルネットワーク,サポートベクトルマシン,決定木など,自動分類のための一連の機械学習手法を開発した。
その結果,Support Vector Machines,Logistic Regression,Random Forestsの分類プロセスの精度が向上した。
単語埋め込み法については, FASTTEXT法で最もよい結果を得た。
関連論文リスト
- Using Artificial Neural Networks to Determine Ontologies Most Relevant
to Scientific Texts [44.99833362998488]
本稿では,人工ネットワークを用いた最も関連性の高いテキストの発見の可能性について考察する。
提案手法の基本的な考え方は、ソーステキストファイルから代表を選択し、それをベクトル空間に埋め込むことである。
我々は変換器の組込み出力、特にランダムな森林を分類するために異なる分類器を検討した。
論文 参考訳(メタデータ) (2023-09-17T08:08:50Z) - Enhancing Pashto Text Classification using Language Processing
Techniques for Single And Multi-Label Analysis [0.0]
本研究では,Pashtoテキストの自動分類システムの構築を目的とする。
平均テスト精度は94%だった。
DistilBERTのような事前訓練された言語表現モデルの使用は、有望な結果を示した。
論文 参考訳(メタデータ) (2023-05-04T23:11:31Z) - Tuning Traditional Language Processing Approaches for Pashto Text
Classification [0.0]
本研究の目的は,Pashto自動テキスト分類システムの構築である。
本研究は、統計的およびニューラルネットワーク機械学習技術の両方を含む複数のモデルを比較する。
本研究では,分類アルゴリズムとTFIDF特徴抽出法を用いて,平均試験精度94%を得た。
論文 参考訳(メタデータ) (2023-05-04T22:57:45Z) - Mapping of attention mechanisms to a generalized Potts model [50.91742043564049]
ニューラルネットワークのトレーニングは、いわゆる擬似様相法によって逆ポッツ問題を解くのと全く同じであることを示す。
また、レプリカ法を用いてモデルシナリオにおける自己意図の一般化誤差を解析的に計算する。
論文 参考訳(メタデータ) (2023-04-14T16:32:56Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Unified Functional Hashing in Automatic Machine Learning [58.77232199682271]
高速に統一された関数型ハッシュを用いることで,大きな効率向上が得られることを示す。
私たちのハッシュは"機能的"であり、表現やコードが異なる場合でも同等の候補を識別します。
ニューラルアーキテクチャ検索やアルゴリズム発見など、複数のAutoMLドメインで劇的な改善がなされている。
論文 参考訳(メタデータ) (2023-02-10T18:50:37Z) - Khmer Text Classification Using Word Embedding and Neural Networks [0.0]
Khmerテキストの様々な分類手法について論じる。
Khmerワード埋め込みモデルは、ワードベクトル表現を構築するために、30万のKhmerワードコーパスで訓練される。
複数クラス・複数ラベルのテキスト分類タスクに対して,ニュース記事データセット上での異なるアプローチの性能を評価する。
論文 参考訳(メタデータ) (2021-12-13T15:57:32Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - SLADE: A Self-Training Framework For Distance Metric Learning [75.54078592084217]
我々は、追加のラベルのないデータを活用することで、検索性能を向上させるための自己学習フレームワークSLADEを提案する。
まず、ラベル付きデータに基づいて教師モデルをトレーニングし、ラベルなしデータに対して擬似ラベルを生成する。
次に、最終機能埋め込みを生成するために、ラベルと擬似ラベルの両方で学生モデルをトレーニングします。
論文 参考訳(メタデータ) (2020-11-20T08:26:10Z) - Transformer Based Language Models for Similar Text Retrieval and Ranking [0.0]
本稿では,ニューラルトランスモデルを類似したテキスト検索とランキングに効果的に適用するための新しいアプローチを提案する。
提案手法は, 単語のバッグ・オブ・ワード・ベースのステップを排除し, クエリに共通する非単語がなくても, 精度よく検索結果を検索・ランク付けすることができる。
論文 参考訳(メタデータ) (2020-05-10T06:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。