論文の概要: KoCoSa: Korean Context-aware Sarcasm Detection Dataset
- arxiv url: http://arxiv.org/abs/2402.14428v2
- Date: Fri, 22 Mar 2024 06:29:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 22:01:03.128711
- Title: KoCoSa: Korean Context-aware Sarcasm Detection Dataset
- Title(参考訳): KoCoSa:韓国のコンテキスト対応サーカム検出データセット
- Authors: Yumin Kim, Heejae Suh, Mingi Kim, Dongyeon Won, Hwanhee Lee,
- Abstract要約: サルカズム(英: Sarcasm)は、言葉による皮肉の一種で、ある人、状況、あるいは考えを笑うために、誰かがその意味とは逆の言葉を言う。
本稿では,韓国のSarcasm検出タスクKoCoSaの新しいデータセットについて紹介する。
データセットは、1日12.8Kの韓国の対話と、最後のレスポンスでこのタスクのラベルで構成されている。
- 参考スコア(独自算出の注目度): 3.369750569233713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sarcasm is a way of verbal irony where someone says the opposite of what they mean, often to ridicule a person, situation, or idea. It is often difficult to detect sarcasm in the dialogue since detecting sarcasm should reflect the context (i.e., dialogue history). In this paper, we introduce a new dataset for the Korean dialogue sarcasm detection task, KoCoSa (Korean Context-aware Sarcasm Detection Dataset), which consists of 12.8K daily Korean dialogues and the labels for this task on the last response. To build the dataset, we propose an efficient sarcasm detection dataset generation pipeline: 1) generating new sarcastic dialogues from source dialogues with large language models, 2) automatic and manual filtering of abnormal and toxic dialogues, and 3) human annotation for the sarcasm detection task. We also provide a simple but effective baseline for the Korean sarcasm detection task trained on our dataset. Experimental results on the dataset show that our baseline system outperforms strong baselines like large language models, such as GPT-3.5, in the Korean sarcasm detection task. We show that the sarcasm detection task relies deeply on the existence of sufficient context. We will release the dataset at https://github.com/Yu-billie/KoCoSa_sarcasm_detection.
- Abstract(参考訳): サルカズム(英: Sarcasm)は、言葉による皮肉の一種で、ある人、状況、あるいは考えを笑うために、誰かがその意味とは逆の言葉を言う。
サルカズムを検出するには文脈(すなわち対話履歴)を反映する必要があるため、対話中のサルカズムを検出することはしばしば困難である。
本稿では,韓国語対話サルカズム検出タスクであるKoCoSa(韓国語コンテキスト対応サルカズム検出データセット)について,12.8Kの日次対話と,このタスクのラベルからなる新しいデータセットを提案する。
データセットを構築するために,効率的なサルカズム検出データセット生成パイプラインを提案する。
1)大言語モデルを用いたソース対話から新たなサーカシック対話を生成する。
2 異常及び有害な対話の自動及び手動フィルタリング、及び
3) サルカズム検出タスクに対する人的アノテーション。
また、我々のデータセットで訓練された韓国のサルカズム検出タスクに対して、単純だが効果的なベースラインを提供する。
韓国のサルカズム検出タスクにおいて,GPT-3.5のような大規模言語モデルのように,我々のベースラインシステムは強いベースラインよりも優れていることを示す実験結果を得た。
サルカズム検出タスクは十分なコンテキストの存在に大きく依存していることを示す。
データセットはhttps://github.com/Yu-billie/KoCoSa_sarcasm_detectionで公開します。
関連論文リスト
- Sentiment-enhanced Graph-based Sarcasm Explanation in Dialogue [67.09698638709065]
本稿では,SEntiment-enhanceD Graph を用いたマルチモーダルサルカズム記述フレームワーク EDGE を提案する。
特に,まずレキシコン誘導型発話感情推論モジュールを提案し,そこでは発話感情改善戦略を考案する。
次に,マルチモーダル感情分析モデル JCA を拡張し,映像音声クリップ毎に共同感情ラベルを導出することにより,JCA-SI (Joint Cross Attention-based Sentiment Inference) というモジュールを開発する。
論文 参考訳(メタデータ) (2024-02-06T03:14:46Z) - Sarcasm Detection in a Disaster Context [103.93691731605163]
HurricaneSARCは,意図した皮肉に注釈を付けた15,000ツイートのデータセットである。
私たちの最高のモデルは、データセットで最大0.70F1を得ることができます。
論文 参考訳(メタデータ) (2023-08-16T05:58:12Z) - Researchers eye-view of sarcasm detection in social media textual
content [0.0]
ソーシャルメディアにおけるあらゆる形態のコミュニケーションにおける皮肉文の使用は、ターゲットユーザに対する生理的効果をもたらす。
本稿では,様々なサルカズム検出手法について論じ,いくつかのアプローチ,および最適な特徴を持つ関連するデータセットを結論づける。
論文 参考訳(メタデータ) (2023-04-17T19:45:10Z) - Sarcasm Detection Framework Using Emotion and Sentiment Features [62.997667081978825]
本研究では,感情と感情の特徴を取り入れたモデルを提案する。
我々のアプローチは、ソーシャルネットワークプラットフォームとオンラインメディアの4つのデータセットに対して、最先端の結果を得た。
論文 参考訳(メタデータ) (2022-11-23T15:14:44Z) - How to Describe Images in a More Funny Way? Towards a Modular Approach
to Cross-Modal Sarcasm Generation [62.89586083449108]
本稿では,CMSG(Cross-modal sarcasm Generation)の新たな問題,すなわち,与えられた画像に対してサーカシックな記述を生成することについて検討する。
CMSGは、異なるモード間の相関だけでなく、サルカズムの特性をモデルが満たさなければならないため、困難である。
クロスモデルサルカズム生成のための抽出・生成・生成に基づくモジュール法(EGRM)を提案する。
論文 参考訳(メタデータ) (2022-11-20T14:38:24Z) - Computational Sarcasm Analysis on Social Media: A Systematic Review [0.23488056916440855]
サルカズムは、人を侮辱したり、いらいらさせたり、楽しませたりするために、本当に表現したいことの反対を言ったり、書いたりするものとして定義することができる。
テキストデータにおけるサルカズムの曖昧な性質から,その検出は困難であり,感情分析研究コミュニティに大きな関心を寄せている。
論文 参考訳(メタデータ) (2022-09-13T17:20:19Z) - sarcasm detection and quantification in arabic tweets [7.173484352846755]
本論文は,ツイートから収集したサルカズム検出のための,人為的注釈付きアラビア語コーパスを作成することを目的としている。
提案手法は、分類ではなく回帰問題としてこの問題に取り組む。
論文 参考訳(メタデータ) (2021-08-03T11:48:27Z) - Parallel Deep Learning-Driven Sarcasm Detection from Pop Culture Text
and English Humor Literature [0.76146285961466]
ベンチマークポップカルチャー Sarcasm corpus のサーカシックな単語分布特徴を手作業で抽出する。
このような単語から重み付きベクトルからなる入力シーケンスを生成する。
提案するサルカズム検出モデルは,提案したデータセットを用いてトレーニングした場合,98.95%のトレーニング精度をピークとする。
論文 参考訳(メタデータ) (2021-06-10T14:01:07Z) - Augmenting Data for Sarcasm Detection with Unlabeled Conversation
Context [55.898436183096614]
本稿では,会話コンテキストを利用して意味のあるサンプルを生成する新しいデータ拡張手法であるCRA(Contextual Response Augmentation)を提案する。
具体的には,提案手法を訓練し,FigLang2020の皮肉検出タスクに参加し,RedditとTwitterのデータセットで最高のパフォーマンスを実現した。
論文 参考訳(メタデータ) (2020-06-11T09:00:11Z) - Sarcasm Detection using Context Separators in Online Discourse [3.655021726150369]
サルカズム(Sarcasm)は、意味が暗黙的に伝えられる複雑な形態の言語である。
本研究では,RoBERTa_largeを用いて2つのデータセットの皮肉を検出する。
また,文脈単語埋め込みモデルの性能向上における文脈の重要性を主張する。
論文 参考訳(メタデータ) (2020-06-01T10:52:35Z) - $R^3$: Reverse, Retrieve, and Rank for Sarcasm Generation with
Commonsense Knowledge [51.70688120849654]
非皮肉な入力文に基づくサルカズム生成のための教師なしアプローチを提案する。
本手法では,サルカズムの2つの主要な特徴をインスタンス化するために,検索・編集の枠組みを用いる。
論文 参考訳(メタデータ) (2020-04-28T02:30:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。