論文の概要: A Comparison of Lexicon-Based and ML-Based Sentiment Analysis: Are There
Outlier Words?
- arxiv url: http://arxiv.org/abs/2311.06221v1
- Date: Fri, 10 Nov 2023 18:21:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 14:14:20.644339
- Title: A Comparison of Lexicon-Based and ML-Based Sentiment Analysis: Are There
Outlier Words?
- Title(参考訳): 語彙ベースとMLベースの感性分析の比較:不整形語はあるか?
- Authors: Siddhant Jaydeep Mahajani and Shashank Srivastava and Alan F. Smeaton
- Abstract要約: 本稿では、4つのドメインから抽出された15万以上の英語テキストに対する感情を計算する。
回帰モデルを用いて各ドメインの文書に対するアプローチ間の感情スコアの差をモデル化する。
以上の結果から,単語の重要性はドメインに依存しており,感情スコアの違いを系統的に引き起こす辞書項目が存在しないことが示唆された。
- 参考スコア(独自算出の注目度): 14.816706893177997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lexicon-based approaches to sentiment analysis of text are based on each word
or lexical entry having a pre-defined weight indicating its sentiment polarity.
These are usually manually assigned but the accuracy of these when compared
against machine leaning based approaches to computing sentiment, are not known.
It may be that there are lexical entries whose sentiment values cause a
lexicon-based approach to give results which are very different to a machine
learning approach. In this paper we compute sentiment for more than 150,000
English language texts drawn from 4 domains using the Hedonometer, a
lexicon-based technique and Azure, a contemporary machine-learning based
approach which is part of the Azure Cognitive Services family of APIs which is
easy to use. We model differences in sentiment scores between approaches for
documents in each domain using a regression and analyse the independent
variables (Hedonometer lexical entries) as indicators of each word's importance
and contribution to the score differences. Our findings are that the importance
of a word depends on the domain and there are no standout lexical entries which
systematically cause differences in sentiment scores.
- Abstract(参考訳): レキシコンに基づくテキストの感情分析のアプローチは、それぞれの単語またはその感情極性を表す事前定義された重みを持つ語彙エントリに基づいている。
これらは通常手動で割り当てられるが、マシンの傾きに基づくコンピュータ感情に対するアプローチと比較した場合の精度は分かっていない。
感情値がレキシコンベースのアプローチで、機械学習のアプローチとは大きく異なる結果を与える語彙的エントリがあるかもしれない。
本稿では,lexiconベースの手法であるhedonometerと,使い易いazure cognitive servicesファミリの一部である現代機械学習ベースのアプローチであるazureを用いて,4つのドメインから描かれた15万以上の英語テキストに対する感情を計算する。
回帰分析を用いて各領域の文書に対する感情スコアの差異をモデル化し、各単語の重要性とスコア差への寄与を示す指標として独立変数(ヘドメータ語彙項目)を分析した。
その結果,単語の重要性はドメインに依存しており,感情スコアの違いを系統的に引き起こす辞書は存在しないことがわかった。
関連論文リスト
- Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - Sentiment-Aware Word and Sentence Level Pre-training for Sentiment
Analysis [64.70116276295609]
SentiWSPは、WordレベルとSentenceレベルの事前トレーニングタスクを組み合わせた、Sentiment対応の事前トレーニング言語モデルである。
SentiWSPは、様々な文レベルおよびアスペクトレベルの感情分類ベンチマーク上で、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T12:25:29Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - Lex2Sent: A bagging approach to unsupervised sentiment analysis [0.42970700836450487]
本論文で提案するLex2Sentは,感情辞書手法の分類を改善するための教師なし感情分析手法である。
本論文では,3つのベンチマークデータセットに対して,提案したLex2Sentは評価されたレキシコンのすべてに優れる。
論文 参考訳(メタデータ) (2022-09-26T20:49:18Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Building domain specific lexicon based on TikTok comment dataset [0.0]
それまでの研究では、例えば、Valence、Arousal、Dominance of sentenceに基づく文の感情傾向の分析など、英語の感情分析に焦点が当てられていた。
本稿では,ドメイン固有辞書を構築する手法を試みた。
モデルは感情的な傾向の中国語の単語を分類できます。
論文 参考訳(メタデータ) (2020-12-16T07:26:43Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - A Variational Approach to Unsupervised Sentiment Analysis [8.87759101018566]
本研究では,教師なし感情分析のための変分アプローチを提案する。
我々は、監視信号としてターゲット-オピニオンワードペアを使用する。
顧客レビューと臨床物語に対する感情分析に本手法を適用した。
論文 参考訳(メタデータ) (2020-08-21T09:52:35Z) - A computational model implementing subjectivity with the 'Room Theory'.
The case of detecting Emotion from Text [68.8204255655161]
本研究は,テキスト分析における主観性と一般的文脈依存性を考慮した新しい手法を提案する。
単語間の類似度を用いて、ベンチマーク中の要素の相対的関連性を抽出することができる。
この方法は、主観的評価がテキストの相対値や意味を理解するために関係しているすべてのケースに適用できる。
論文 参考訳(メタデータ) (2020-05-12T21:26:04Z) - Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。
ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。
適切な単語の埋め込みを選択することは 複雑な作業です なぜなら、投影された埋め込み空間は 人間にとって直感的ではないからです
論文 参考訳(メタデータ) (2020-05-08T01:16:03Z) - Detecting Domain Polarity-Changes of Words in a Sentiment Lexicon [24.818142279945633]
多くの感情語はドメインに依存している。つまり、一部のドメインでは肯定的であるが、一部のドメインでは否定的である。
本稿では,この問題に対処するためのグラフベースの手法を提案する。
実験結果から,複数の実世界のデータセット上での有効性が示された。
論文 参考訳(メタデータ) (2020-04-29T17:35:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。