論文の概要: Presence of informal language, such as emoticons, hashtags, and slang,
impact the performance of sentiment analysis models on social media text?
- arxiv url: http://arxiv.org/abs/2301.12303v1
- Date: Sat, 28 Jan 2023 22:21:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 17:51:31.382040
- Title: Presence of informal language, such as emoticons, hashtags, and slang,
impact the performance of sentiment analysis models on social media text?
- Title(参考訳): エモティコン、ハッシュタグ、スラングといった非公式言語の存在は、ソーシャルメディアテキストにおける感情分析モデルのパフォーマンスに影響するか?
- Authors: Aadil Gani Ganie
- Abstract要約: 本研究では,エモティコンやスラングといった非公式言語がソーシャルメディアテキストに適用された感情分析モデルの性能に与える影響について検討した。
CNNモデルは、サルカズムデータセット、感情データセット、エモティコンデータセットの3つのデータセットで開発、訓練された。
結果は、Sarcasmデータセットで96.47%の精度を達成し、クラス1では最も低い精度を示した。
皮肉と感情のデータセットの融合はモデルの精度を95.1%に改善し、エモティコンデータセットの追加はモデルの精度を95.37%にわずかに良い影響を与える。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study aimed to investigate the influence of the presence of informal
language, such as emoticons and slang, on the performance of sentiment analysis
models applied to social media text. A convolutional neural network (CNN) model
was developed and trained on three datasets: a sarcasm dataset, a sentiment
dataset, and an emoticon dataset. The model architecture was held constant for
all experiments and the model was trained on 80% of the data and tested on 20%.
The results revealed that the model achieved an accuracy of 96.47% on the
sarcasm dataset, with the lowest accuracy for class 1. On the sentiment
dataset, the model achieved an accuracy of 95.28%. The amalgamation of sarcasm
and sentiment datasets improved the accuracy of the model to 95.1%, and the
addition of emoticon dataset has a slight positive impact on the accuracy of
the model to 95.37%. The study suggests that the presence of informal language
has a restricted impact on the performance of sentiment analysis models applied
to social media text. However, the inclusion of emoticon data to the model can
enhance the accuracy slightly.
- Abstract(参考訳): 本研究の目的は,エモティコンやスラングといった非公式言語の存在がソーシャルメディアテキストに適用された感情分析モデルの性能に与える影響を検討することである。
畳み込みニューラルネットワーク(cnn)モデルは、サルカズムデータセット、感情データセット、エモティコンデータセットの3つのデータセットに基づいて開発、訓練された。
モデルアーキテクチャはすべての実験で一定に保たれ、モデルは80%のデータでトレーニングされ、20%でテストされた。
結果は、Sarcasmデータセットで96.47%の精度を達成し、クラス1では最も低い精度を示した。
感情データセットでは、モデルは95.28%の精度を達成した。
サーカズムと感情データセットの融合により、モデルの精度は95.1%に向上し、エモティコンデータセットの追加はモデルの精度に95.37%の正の影響を与えている。
この研究は、非公式言語の存在がソーシャルメディアテキストに適用された感情分析モデルの性能に制限的な影響を与えることを示唆している。
しかし、モデルにエモティコンデータを含めることで、精度をわずかに向上させることができる。
関連論文リスト
- Natural Language Processing Through Transfer Learning: A Case Study on
Sentiment Analysis [1.14219428942199]
本稿では,感情分析を中心に自然言語処理における伝達学習の可能性について考察する。
その主張は、スクラッチからのトレーニングモデルと比較して、事前訓練されたBERTモデルを使用したトランスファーラーニングは、感情分類の精度を向上できるというものである。
論文 参考訳(メタデータ) (2023-11-28T17:12:06Z) - Measuring and Improving Attentiveness to Partial Inputs with
Counterfactuals [95.5442607785241]
我々は,新しい評価手法であるCAT(Facterfactual Attentiveness Test)を提案する。
CATは、入力の一部を別の例から別の例に置き換えることで、予測を変更する注意深いモデルを期待することで、反事実を使用する。
実験データの精度が向上する一方, GPT3 は実演回数の増加により注意力の低下がみられた。
論文 参考訳(メタデータ) (2023-11-16T06:27:35Z) - Enhancing Zero-Shot Crypto Sentiment with Fine-tuned Language Model and
Prompt Engineering [2.280359339174839]
本稿では,暗号通貨領域における感情分析の精度を高めることを目的として,大規模言語モデルの微調整技術について検討する。
また,大規模言語モデルにおける教師付き微調整と命令に基づく微調整の有効性について検討した。
論文 参考訳(メタデータ) (2023-10-20T02:15:51Z) - Sensitivity, Performance, Robustness: Deconstructing the Effect of
Sociodemographic Prompting [64.80538055623842]
社会デマトグラフィープロンプトは、特定の社会デマトグラフィープロファイルを持つ人間が与える答えに向けて、プロンプトベースのモデルの出力を操縦する技術である。
ソシオデマトグラフィー情報はモデル予測に影響を及ぼし、主観的NLPタスクにおけるゼロショット学習を改善するのに有用であることを示す。
論文 参考訳(メタデータ) (2023-09-13T15:42:06Z) - Convolutional Neural Networks for Sentiment Analysis on Weibo Data: A
Natural Language Processing Approach [0.228438857884398]
本研究では,Weiboの119,988ツイートのデータセット上で,畳み込みニューラルネットワーク(CNN)を用いた感情分析の複雑な課題に対処する。
CNNに基づくモデルを用いて,特徴抽出に単語埋め込みを活用し,感情分類を行う訓練を行った。
このモデルは、テストセットで平均約0.73のマクロ平均F1スコアを達成し、正、中、負の感情でバランスの取れた性能を示した。
論文 参考訳(メタデータ) (2023-07-13T03:02:56Z) - Constructing Colloquial Dataset for Persian Sentiment Analysis of Social
Microblogs [0.0]
本稿ではまず,ITRC-Opinionというユーザ意見データセットを協調的かつインソース的に構築する。
私たちのデータセットには、TwitterやInstagramといったソーシャルなマイクロブログから、6万の非公式で口語的なペルシア語のテキストが含まれています。
次に,畳み込みニューラルネットワーク(CNN)モデルに基づく新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-22T05:51:22Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - Scaling Language Models: Methods, Analysis & Insights from Training
Gopher [83.98181046650664]
本稿では,トランスフォーマーに基づく言語モデルの性能を,幅広いモデルスケールで解析する。
スケールからのゲインは、理解、事実確認、有害言語の同定などにおいて最大である。
我々は、AIの安全性と下流の害の軽減に対する言語モデルの適用について論じる。
論文 参考訳(メタデータ) (2021-12-08T19:41:47Z) - Comparative Study of Language Models on Cross-Domain Data with Model
Agnostic Explainability [0.0]
この研究は、最先端の言語モデルであるBERT、ELECTRAとその派生品であるRoBERTa、ALBERT、DistilBERTを比較した。
実験結果は、2013年の格付けタスクとフィナンシャル・フレーズバンクの感情検出タスクの69%、そして88.2%の精度で、新たな最先端の「評価タスク」を確立した。
論文 参考訳(メタデータ) (2020-09-09T04:31:44Z) - Can x2vec Save Lives? Integrating Graph and Language Embeddings for
Automatic Mental Health Classification [91.3755431537592]
グラフと言語の埋め込みモデル(metapath2vec と doc2vec)がリソース制限を回避する方法を示します。
統合されると、両データは高度に正確な予測を生成する(90%、偽陽性10%、偽陰性12%)。
これらの結果は、大規模ネットワークにおける行動と言語を同時に分析することの重要性の研究を拡大する。
論文 参考訳(メタデータ) (2020-01-04T20:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。