論文の概要: Word Embedding Techniques for Classification of Star Ratings
- arxiv url: http://arxiv.org/abs/2504.13653v1
- Date: Fri, 18 Apr 2025 12:26:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 15:49:18.657277
- Title: Word Embedding Techniques for Classification of Star Ratings
- Title(参考訳): 星型分類のための単語埋め込み技術
- Authors: Hesham Abdelmotaleb, Craig McNeile, Malgorzata Wojtys,
- Abstract要約: 本研究は、顧客レビューの新たなデータセットを用いて、異なる単語埋め込みアルゴリズムがテキスト分類プロセスにどのように影響するかを示す広範な研究を行う。
BERT、Word2Vec、Doc2Vecなど、最先端のワード埋め込み技術やいくつかの分類アルゴリズムが検討されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Telecom services are at the core of today's societies' everyday needs. The availability of numerous online forums and discussion platforms enables telecom providers to improve their services by exploring the views of their customers to learn about common issues that the customers face. Natural Language Processing (NLP) tools can be used to process the free text collected. One way of working with such data is to represent text as numerical vectors using one of many word embedding models based on neural networks. This research uses a novel dataset of telecom customers' reviews to perform an extensive study showing how different word embedding algorithms can affect the text classification process. Several state-of-the-art word embedding techniques are considered, including BERT, Word2Vec and Doc2Vec, coupled with several classification algorithms. The important issue of feature engineering and dimensionality reduction is addressed and several PCA-based approaches are explored. Moreover, the energy consumption used by the different word embeddings is investigated. The findings show that some word embedding models can lead to consistently better text classifiers in terms of precision, recall and F1-Score. In particular, for the more challenging classification tasks, BERT combined with PCA stood out with the highest performance metrics. Moreover, our proposed PCA approach of combining word vectors using the first principal component shows clear advantages in performance over the traditional approach of taking the average.
- Abstract(参考訳): 通信サービスは、今日の社会の日常的なニーズの中核にある。
多数のオンラインフォーラムやディスカッションプラットフォームが利用可能になったことで、テレコムプロバイダは、顧客の見解を調べて、顧客が直面する共通の問題について学ぶことで、サービスを改善することができる。
自然言語処理(NLP)ツールは、収集された自由テキストを処理するために使用できる。
このようなデータを扱う一つの方法は、ニューラルネットワークに基づく多くの単語埋め込みモデルのうちの1つを使用して、テキストを数値ベクトルとして表現することである。
本研究は、顧客レビューの新たなデータセットを用いて、異なる単語埋め込みアルゴリズムがテキスト分類プロセスにどのように影響するかを示す広範な研究を行う。
BERT、Word2Vec、Doc2Vecなど、最先端のワード埋め込み技術やいくつかの分類アルゴリズムが検討されている。
特徴工学と次元還元の重要な課題に対処し、PCAに基づくいくつかのアプローチについて検討する。
さらに,単語埋め込みのエネルギー消費について検討した。
その結果, 単語埋め込みモデルによっては, 精度, リコール, F1-Scoreの点で, テキスト分類の精度が向上することが示唆された。
特に、より困難な分類タスクのために、BERTとPCAの組み合わせは、最高のパフォーマンス指標で際立った。
さらに,第1主成分を用いて単語ベクトルを合成するPCA手法では,平均値を取る従来の手法よりも高い性能を示す。
関連論文リスト
- A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Recent Advances in Named Entity Recognition: A Comprehensive Survey and Comparative Study [8.91661466156389]
NERに対する最近のポピュラーなアプローチの概要を紹介する。
我々は、強化学習とグラフベースのアプローチについて論じ、NERの性能向上におけるそれらの役割を強調した。
我々は,異なる特徴を持つ各種データセット上での主NER実装の性能を評価する。
論文 参考訳(メタデータ) (2024-01-19T17:21:05Z) - A Process for Topic Modelling Via Word Embeddings [0.0]
この研究は、単語の埋め込み、次元の縮小、クラスタリングに基づくアルゴリズムを組み合わせる。
目的は、未分類テキストの集合からトピックを取得することである。
論文 参考訳(メタデータ) (2023-10-06T15:10:35Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - Embedding generation for text classification of Brazilian Portuguese
user reviews: from bag-of-words to transformers [0.0]
この研究は、古典的(バグ・オブ・ワード)から最先端(トランスフォーマーベース)NLPモデルまで含んでいる。
本研究の目的は,ブラジルポルトガル語におけるユーザレビューのバイナリ感情分類を対象とする埋め込みアプローチに関する総合的な実験的研究を提供することである。
論文 参考訳(メタデータ) (2022-12-01T15:24:19Z) - Using virtual edges to extract keywords from texts modeled as complex
networks [0.1611401281366893]
我々は,単語とエッジが文脈的あるいは意味的類似性によって確立されるようなテキスト共起ネットワークをモデル化した。
実際、仮想エッジを使用することで、共起ネットワークの識別性が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-04T16:43:03Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - A Comparison of Word2Vec, HMM2Vec, and PCA2Vec for Malware
Classification [3.0969191504482247]
まず、マルウェア分類のコンテキスト内で複数の異なる単語埋め込み技術を検討します。
我々は,様々な家系のマルウェアサンプルに対するオプコードシーケンスに基づく特徴埋め込みを導出する。
これらの特徴埋め込みに基づいて,より優れた分類精度が得られることを示す。
論文 参考訳(メタデータ) (2021-03-07T14:41:18Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z) - Pretrained Transformers for Text Ranking: BERT and Beyond [53.83210899683987]
このサーベイは、トランスフォーマーとして知られるニューラルネットワークアーキテクチャによるテキストランキングの概要を提供する。
トランスフォーマーと自己教師型事前学習の組み合わせは、自然言語処理のパラダイムシフトの原因となっている。
論文 参考訳(メタデータ) (2020-10-13T15:20:32Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。