論文の概要: Quality of Word Embeddings on Sentiment Analysis Tasks
- arxiv url: http://arxiv.org/abs/2003.03264v1
- Date: Fri, 6 Mar 2020 15:03:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 01:03:49.512061
- Title: Quality of Word Embeddings on Sentiment Analysis Tasks
- Title(参考訳): 感性分析課題における単語埋め込みの品質
- Authors: Erion \c{C}ano and Maurizio Morisio
- Abstract要約: 我々は、歌詞感情分析と映画レビューの極性タスクにおいて、事前訓練された単語埋め込みモデルの性能を比較した。
われわれの結果によると、Twitterのツイートは歌詞の感情分析でベスト、Google NewsとCommon Crawlは映画極性分析のトップパフォーマーだ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word embeddings or distributed representations of words are being used in
various applications like machine translation, sentiment analysis, topic
identification etc. Quality of word embeddings and performance of their
applications depends on several factors like training method, corpus size and
relevance etc. In this study we compare performance of a dozen of pretrained
word embedding models on lyrics sentiment analysis and movie review polarity
tasks. According to our results, Twitter Tweets is the best on lyrics sentiment
analysis, whereas Google News and Common Crawl are the top performers on movie
polarity analysis. Glove trained models slightly outrun those trained with
Skipgram. Also, factors like topic relevance and size of corpus significantly
impact the quality of the models. When medium or large-sized text sets are
available, obtaining word embeddings from same training dataset is usually the
best choice.
- Abstract(参考訳): 単語の埋め込みや単語の分散表現は、機械翻訳、感情分析、トピック識別などの様々なアプリケーションで使われている。
単語埋め込みの品質とアプリケーションの性能は、トレーニング方法、コーパスサイズ、関連性など、いくつかの要素に依存する。
本研究では,歌詞感情分析と映画レビューの極性タスクにおいて,事前学習した単語埋め込みモデルの性能を比較した。
われわれの結果によると、Twitterのツイートは歌詞の感情分析でベスト、Google NewsとCommon Crawlは映画極性分析のトップパフォーマーだ。
グラブが訓練したモデルは、Skipgramで訓練したモデルよりわずかに上回った。
また、トピックの関連性やコーパスのサイズといった要因がモデルの品質に大きく影響します。
中規模または大規模のテキストセットが利用可能であれば、同じトレーニングデータセットから単語埋め込みを得るのが最善の選択です。
関連論文リスト
- CAST: Corpus-Aware Self-similarity Enhanced Topic modelling [16.562349140796115]
CAST: Corpus-Aware Self-similarity Enhanced Topic modelling, a novel topic modelling methodを紹介する。
機能的単語が候補話題語として振る舞うのを防ぐための効果的な指標として自己相似性を見出した。
提案手法は,生成したトピックの一貫性と多様性,およびノイズの多いデータを扱うトピックモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-19T15:27:11Z) - Lexicon-Based Sentiment Analysis on Text Polarities with Evaluation of Classification Models [1.342834401139078]
本研究は,レキシコン法を用いて感情分析を行い,テキストデータを用いた分類モデルの評価を行った。
語彙に基づく手法は、単語レベルでの感情と主観性の強さを識別する。
この研究は、テキストが正、負、中立とラベル付けされているというマルチクラスの問題に基づいている。
論文 参考訳(メタデータ) (2024-09-19T15:31:12Z) - A Comparison of Lexicon-Based and ML-Based Sentiment Analysis: Are There
Outlier Words? [14.816706893177997]
本稿では、4つのドメインから抽出された15万以上の英語テキストに対する感情を計算する。
回帰モデルを用いて各ドメインの文書に対するアプローチ間の感情スコアの差をモデル化する。
以上の結果から,単語の重要性はドメインに依存しており,感情スコアの違いを系統的に引き起こす辞書項目が存在しないことが示唆された。
論文 参考訳(メタデータ) (2023-11-10T18:21:50Z) - Sentiment-Aware Word and Sentence Level Pre-training for Sentiment
Analysis [64.70116276295609]
SentiWSPは、WordレベルとSentenceレベルの事前トレーニングタスクを組み合わせた、Sentiment対応の事前トレーニング言語モデルである。
SentiWSPは、様々な文レベルおよびアスペクトレベルの感情分類ベンチマーク上で、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T12:25:29Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。
ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。
適切な単語の埋め込みを選択することは 複雑な作業です なぜなら、投影された埋め込み空間は 人間にとって直感的ではないからです
論文 参考訳(メタデータ) (2020-05-08T01:16:03Z) - A Deep Neural Framework for Contextual Affect Detection [51.378225388679425]
感情を持たない短い単純なテキストは、その文脈と共に読むときに強い感情を表現することができる。
文中の単語の相互依存を学習する文脈影響検出フレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-28T05:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。