論文の概要: Sarcasm Detection in Twitter -- Performance Impact when using Data
Augmentation: Word Embeddings
- arxiv url: http://arxiv.org/abs/2108.09924v1
- Date: Mon, 23 Aug 2021 04:24:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 22:08:24.115590
- Title: Sarcasm Detection in Twitter -- Performance Impact when using Data
Augmentation: Word Embeddings
- Title(参考訳): TwitterにおけるSarcasm検出 -- データ拡張時のパフォーマンスへの影響: ワード埋め込み
- Authors: Alif Tri Handoyo, Hidayaturrahman, Derwin Suhartono
- Abstract要約: サルカスム(Sarcasm)は、通常、誰かをモックしたり、困惑させたり、ユーモラスな目的のために使われる言葉である。
本稿では,RoBERTaを用いたTwitterにおける皮肉識別のコンテキストモデルを提案する。
サーカシックとラベル付けされたデータの20%を増やすために、データ拡張を使用する場合、iSarcasmデータセットで3.2%の性能向上を実現した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sarcasm is the use of words usually used to either mock or annoy someone, or
for humorous purposes. Sarcasm is largely used in social networks and
microblogging websites, where people mock or censure in a way that makes it
difficult even for humans to tell if what is said is what is meant. Failure to
identify sarcastic utterances in Natural Language Processing applications such
as sentiment analysis and opinion mining will confuse classification algorithms
and generate false results. Several studies on sarcasm detection have utilized
different learning algorithms. However, most of these learning models have
always focused on the contents of expression only, leaving the contextual
information in isolation. As a result, they failed to capture the contextual
information in the sarcastic expression. Moreover, some datasets used in
several studies have an unbalanced dataset which impacting the model result. In
this paper, we propose a contextual model for sarcasm identification in twitter
using RoBERTa, and augmenting the dataset by applying Global Vector
representation (GloVe) for the construction of word embedding and context
learning to generate more data and balancing the dataset. The effectiveness of
this technique is tested with various datasets and data augmentation settings.
In particular, we achieve performance gain by 3.2% in the iSarcasm dataset when
using data augmentation to increase 20% of data labeled as sarcastic, resulting
F-score of 40.4% compared to 37.2% without data augmentation.
- Abstract(参考訳): サルカスム(Sarcasm)は、通常、誰かをモックしたり、困らせたり、ユーモラスな目的のために使われる言葉である。
sarcasmは、主にソーシャルネットワークやマイクロブログウェブサイトで使われており、人々がモックしたり検閲したりすることで、人間が何を言ったかが意味なのかを判断するのが難しくなっている。
感情分析や意見マイニングといった自然言語処理アプリケーションにおける皮肉な発話の識別に失敗すると、分類アルゴリズムが混同され、誤った結果が生成される。
サルカズム検出に関するいくつかの研究は、異なる学習アルゴリズムを利用している。
しかし、これらの学習モデルのほとんどは、常に表現の内容のみに焦点を合わせており、文脈情報は孤立している。
その結果,サルコスティック表現における文脈情報の把握に失敗した。
さらに、いくつかの研究で使われるデータセットには、モデル結果に影響を与える不均衡データセットがある。
本稿では、RoBERTaを用いたTwitterにおける皮肉識別のための文脈モデルを提案し、単語埋め込みと文脈学習の構築にGlobal Vector representation(GloVe)を適用してデータセットを増強し、より多くのデータを生成し、データセットのバランスをとる。
この手法の有効性は、様々なデータセットとデータ拡張設定でテストされる。
特に、データ拡張を使用する場合のiSarcasmデータセットのパフォーマンスは3.2%向上し、サーカシック(sarcastic)とラベル付けされたデータの20%が増加し、結果、Fスコアはデータ拡張なしの37.2%に対して40.4%向上した。
関連論文リスト
- Sarcasm Detection in a Less-Resourced Language [0.0]
我々はSlovenianのような低リソースの言語のためのSarcasm検出データセットを構築した。
機械翻訳特化中型変圧器モデルと、非常に大きな生成言語モデルである。
以上の結果から,より大型のモデルの方がより小型モデルより優れており,アンサンブルにより肉腫検出性能がわずかに向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-16T16:10:59Z) - Generalizable Sarcasm Detection Is Just Around The Corner, Of Course! [3.1245838179647576]
4つのサルカズムデータセットを微調整した際の挙動を調べた結果,サルカズム検出モデルのロバスト性について検証した。
データセット内予測では、サードパーティのラベルで微調整された場合、モデルは一貫して改善された。
データセット間の予測では、ほとんどのモデルは他のデータセットとよく一致しなかった。
論文 参考訳(メタデータ) (2024-04-09T14:48:32Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。
本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-19T02:53:59Z) - Sarcasm Detection Framework Using Emotion and Sentiment Features [62.997667081978825]
本研究では,感情と感情の特徴を取り入れたモデルを提案する。
我々のアプローチは、ソーシャルネットワークプラットフォームとオンラインメディアの4つのデータセットに対して、最先端の結果を得た。
論文 参考訳(メタデータ) (2022-11-23T15:14:44Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - UTNLP at SemEval-2022 Task 6: A Comparative Analysis of Sarcasm
Detection using generative-based and mutation-based data augmentation [0.0]
サルカズム(英: Sarcasm)とは、誰かをモックしたり、いらいらさせたり、楽しませたりする言葉を指す用語である。
サルカズムの比喩的・創造的な性質は感情計算に基づく感情分析システムに重大な困難をもたらす。
異なるモデルとデータ拡張アプローチをテストに配置し、どれが最もうまく機能するかを報告します。
論文 参考訳(メタデータ) (2022-04-18T07:25:27Z) - "Did you really mean what you said?" : Sarcasm Detection in
Hindi-English Code-Mixed Data using Bilingual Word Embeddings [0.0]
我々は、カスタム単語埋め込みを訓練するためのツイートのコーパスと、皮肉検出のためのラベル付きHinglishデータセットを提示する。
我々は,ヒンディー語と英語の混合ツイートにおける皮肉検出の問題に対処するために,ディープラーニングに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-01T11:41:44Z) - Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。
データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文 参考訳(メタデータ) (2020-08-02T17:23:55Z) - Augmenting Data for Sarcasm Detection with Unlabeled Conversation
Context [55.898436183096614]
本稿では,会話コンテキストを利用して意味のあるサンプルを生成する新しいデータ拡張手法であるCRA(Contextual Response Augmentation)を提案する。
具体的には,提案手法を訓練し,FigLang2020の皮肉検出タスクに参加し,RedditとTwitterのデータセットで最高のパフォーマンスを実現した。
論文 参考訳(メタデータ) (2020-06-11T09:00:11Z) - Sarcasm Detection using Context Separators in Online Discourse [3.655021726150369]
サルカズム(Sarcasm)は、意味が暗黙的に伝えられる複雑な形態の言語である。
本研究では,RoBERTa_largeを用いて2つのデータセットの皮肉を検出する。
また,文脈単語埋め込みモデルの性能向上における文脈の重要性を主張する。
論文 参考訳(メタデータ) (2020-06-01T10:52:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。