論文の概要: On the Impact of Language Nuances on Sentiment Analysis with Large Language Models: Paraphrasing, Sarcasm, and Emojis
- arxiv url: http://arxiv.org/abs/2504.05603v1
- Date: Tue, 08 Apr 2025 01:29:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:31:29.264836
- Title: On the Impact of Language Nuances on Sentiment Analysis with Large Language Models: Paraphrasing, Sarcasm, and Emojis
- Title(参考訳): 大規模言語モデルを用いた感性分析における言語ニュアンスの影響について:パラフレーズ,サルカズム,絵文字
- Authors: Naman Bhargava, Mohammed I. Radaideh, O Hwang Kwon, Aditi Verma, Majdi I. Radaideh,
- Abstract要約: 大きな言語モデル(LLM)は、感情分析を含む様々なタスクで素晴らしいパフォーマンスを示している。
本研究は、絵文字や皮肉を含むテキストのニュアンスが感情分析にどのように影響するかを考察する。
- 参考スコア(独自算出の注目度): 0.3774866290142281
- License:
- Abstract: Large Language Models (LLMs) have demonstrated impressive performance across various tasks, including sentiment analysis. However, data quality--particularly when sourced from social media--can significantly impact their accuracy. This research explores how textual nuances, including emojis and sarcasm, affect sentiment analysis, with a particular focus on improving data quality through text paraphrasing techniques. To address the lack of labeled sarcasm data, the authors created a human-labeled dataset of 5929 tweets that enabled the assessment of LLM in various sarcasm contexts. The results show that when topic-specific datasets, such as those related to nuclear power, are used to finetune LLMs these models are not able to comprehend accurate sentiment in presence of sarcasm due to less diverse text, requiring external interventions like sarcasm removal to boost model accuracy. Sarcasm removal led to up to 21% improvement in sentiment accuracy, as LLMs trained on nuclear power-related content struggled with sarcastic tweets, achieving only 30% accuracy. In contrast, LLMs trained on general tweet datasets, covering a broader range of topics, showed considerable improvements in predicting sentiment for sarcastic tweets (60% accuracy), indicating that incorporating general text data can enhance sarcasm detection. The study also utilized adversarial text augmentation, showing that creating synthetic text variants by making minor changes significantly increased model robustness and accuracy for sarcastic tweets (approximately 85%). Additionally, text paraphrasing of tweets with fragmented language transformed around 40% of the tweets with low-confidence labels into high-confidence ones, improving LLMs sentiment analysis accuracy by 6%.
- Abstract(参考訳): 大きな言語モデル(LLM)は、感情分析を含む様々なタスクで素晴らしいパフォーマンスを示している。
しかし、特にソーシャルメディアから得られるデータ品質は、その正確性に大きな影響を及ぼす可能性がある。
本研究は、絵文字や皮肉などテキストのニュアンスが感情分析にどのように影響するかを考察し、特にテキストパラフレーズ技術によるデータ品質の向上に焦点を当てた。
ラベル付きサルカズムデータの欠如に対処するため、著者らは5929のツイートの人間ラベル付きデータセットを作成し、様々なサルカズム文脈におけるLCMの評価を可能にした。
以上の結果から,LLMを微粒化するために原子力などのトピック固有のデータセットを使用する場合,これらのモデルでは,テキストの多様性が低いため,サルカズムの存在下での正確な感情を理解できず,サルカズム除去などの外部介入が必要となり,モデルの精度が向上することが示唆された。
サーカスムの除去により感情の正確さは最大21%向上し、LLMは皮肉なツイートに苦しんだが、30%の精度しか達成できなかった。
対照的に、一般のツイートデータセットをトレーニングし、幅広いトピックをカバーし、サーカシックなツイートに対する感情予測(60%の精度)を大幅に改善した。
この研究はまた、敵対的なテキストの増補を利用して、小さな変更をすることで合成テキストの変種を作成することで、皮肉なツイート(約85%)のモデルロバスト性と精度を著しく向上させることを示した。
さらに、断片化言語によるツイートのテキストパラフレーズ化は、低信頼ラベルのツイートの約40%を高信頼ラベルに変換し、LSMの感情分析の精度を6%向上させた。
関連論文リスト
- Sarcasm Detection in a Less-Resourced Language [0.0]
我々はSlovenianのような低リソースの言語のためのSarcasm検出データセットを構築した。
機械翻訳特化中型変圧器モデルと、非常に大きな生成言語モデルである。
以上の結果から,より大型のモデルの方がより小型モデルより優れており,アンサンブルにより肉腫検出性能がわずかに向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-16T16:10:59Z) - What Evidence Do Language Models Find Convincing? [94.90663008214918]
議論の的になっているクエリと、さまざまな事実を含む実世界の証拠文書を組み合わせたデータセットを構築します。
このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。
全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存している一方で、人間が重要と考えるスタイル的特徴をほとんど無視している。
論文 参考訳(メタデータ) (2024-02-19T02:15:34Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - SAIDS: A Novel Approach for Sentiment Analysis Informed of Dialect and
Sarcasm [0.0]
本稿では,アラビア語ツイートの感情,皮肉,方言を予測する新しいシステム(SAIDS)を紹介する。
すべてのタスクを一緒にトレーニングすることで、SAIDSの結果は75.98 FPN、59.09 F1スコア、71.13 F1スコアで、それぞれ感情分析、肉腫検出、方言識別を行う。
論文 参考訳(メタデータ) (2023-01-06T14:19:46Z) - Sarcasm Detection Framework Using Emotion and Sentiment Features [62.997667081978825]
本研究では,感情と感情の特徴を取り入れたモデルを提案する。
我々のアプローチは、ソーシャルネットワークプラットフォームとオンラインメディアの4つのデータセットに対して、最先端の結果を得た。
論文 参考訳(メタデータ) (2022-11-23T15:14:44Z) - How to Describe Images in a More Funny Way? Towards a Modular Approach
to Cross-Modal Sarcasm Generation [62.89586083449108]
本稿では,CMSG(Cross-modal sarcasm Generation)の新たな問題,すなわち,与えられた画像に対してサーカシックな記述を生成することについて検討する。
CMSGは、異なるモード間の相関だけでなく、サルカズムの特性をモデルが満たさなければならないため、困難である。
クロスモデルサルカズム生成のための抽出・生成・生成に基づくモジュール法(EGRM)を提案する。
論文 参考訳(メタデータ) (2022-11-20T14:38:24Z) - Sarcasm Detection in Twitter -- Performance Impact when using Data
Augmentation: Word Embeddings [0.0]
サルカスム(Sarcasm)は、通常、誰かをモックしたり、困惑させたり、ユーモラスな目的のために使われる言葉である。
本稿では,RoBERTaを用いたTwitterにおける皮肉識別のコンテキストモデルを提案する。
サーカシックとラベル付けされたデータの20%を増やすために、データ拡張を使用する場合、iSarcasmデータセットで3.2%の性能向上を実現した。
論文 参考訳(メタデータ) (2021-08-23T04:24:12Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - "Did you really mean what you said?" : Sarcasm Detection in
Hindi-English Code-Mixed Data using Bilingual Word Embeddings [0.0]
我々は、カスタム単語埋め込みを訓練するためのツイートのコーパスと、皮肉検出のためのラベル付きHinglishデータセットを提示する。
我々は,ヒンディー語と英語の混合ツイートにおける皮肉検出の問題に対処するために,ディープラーニングに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-01T11:41:44Z) - Augmenting Data for Sarcasm Detection with Unlabeled Conversation
Context [55.898436183096614]
本稿では,会話コンテキストを利用して意味のあるサンプルを生成する新しいデータ拡張手法であるCRA(Contextual Response Augmentation)を提案する。
具体的には,提案手法を訓練し,FigLang2020の皮肉検出タスクに参加し,RedditとTwitterのデータセットで最高のパフォーマンスを実現した。
論文 参考訳(メタデータ) (2020-06-11T09:00:11Z) - Sarcasm Detection using Context Separators in Online Discourse [3.655021726150369]
サルカズム(Sarcasm)は、意味が暗黙的に伝えられる複雑な形態の言語である。
本研究では,RoBERTa_largeを用いて2つのデータセットの皮肉を検出する。
また,文脈単語埋め込みモデルの性能向上における文脈の重要性を主張する。
論文 参考訳(メタデータ) (2020-06-01T10:52:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。