論文の概要: Generalizable Sarcasm Detection Is Just Around The Corner, Of Course!
- arxiv url: http://arxiv.org/abs/2404.06357v2
- Date: Wed, 10 Apr 2024 07:48:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 11:37:32.162035
- Title: Generalizable Sarcasm Detection Is Just Around The Corner, Of Course!
- Title(参考訳): 一般化可能なサーカスム検出は、もちろんコーナーのすぐ近く!
- Authors: Hyewon Jang, Diego Frassinelli,
- Abstract要約: 4つのサルカズムデータセットを微調整した際の挙動を調べた結果,サルカズム検出モデルのロバスト性について検証した。
データセット内予測では、サードパーティのラベルで微調整された場合、モデルは一貫して改善された。
データセット間の予測では、ほとんどのモデルは他のデータセットとよく一致しなかった。
- 参考スコア(独自算出の注目度): 3.1245838179647576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We tested the robustness of sarcasm detection models by examining their behavior when fine-tuned on four sarcasm datasets containing varying characteristics of sarcasm: label source (authors vs. third-party), domain (social media/online vs. offline conversations/dialogues), style (aggressive vs. humorous mocking). We tested their prediction performance on the same dataset (intra-dataset) and across different datasets (cross-dataset). For intra-dataset predictions, models consistently performed better when fine-tuned with third-party labels rather than with author labels. For cross-dataset predictions, most models failed to generalize well to the other datasets, implying that one type of dataset cannot represent all sorts of sarcasm with different styles and domains. Compared to the existing datasets, models fine-tuned on the new dataset we release in this work showed the highest generalizability to other datasets. With a manual inspection of the datasets and post-hoc analysis, we attributed the difficulty in generalization to the fact that sarcasm actually comes in different domains and styles. We argue that future sarcasm research should take the broad scope of sarcasm into account.
- Abstract(参考訳): ラベルソース(著者対第三者)、ドメイン(ソーシャルメディア/オンライン対オフライン会話/対話)、スタイル(攻撃的対ユーモラスモック)の4つのサルカズムデータセットを微調整し、サルカズム検出モデルのロバスト性を検証した。
私たちは、同じデータセット(イントラデータセット)と異なるデータセット(クロスデータセット)で予測性能をテストしました。
データセット内予測では、モデルが著者ラベルではなく、サードパーティラベルで微調整された場合、一貫してパフォーマンスが向上した。
データセット間の予測では、ほとんどのモデルは他のデータセットとよく一致せず、あるタイプのデータセットは異なるスタイルやドメインであらゆる種類の皮肉を表現できないことを示唆している。
既存のデータセットと比較して、本研究でリリースした新しいデータセットを微調整したモデルは、他のデータセットに対して最も高い一般化性を示した。
データセットの手動検査とポストホック解析によって、一般化の難しさは、サルカズムが実際には異なるドメインやスタイルから来ているという事実に起因している。
今後のサルカズム研究は、広い範囲のサルカズムを考慮に入れるべきである。
関連論文リスト
- KoCoSa: Korean Context-aware Sarcasm Detection Dataset [3.369750569233713]
サルカズム(英: Sarcasm)は、言葉による皮肉の一種で、ある人、状況、あるいは考えを笑うために、誰かがその意味とは逆の言葉を言う。
本稿では,韓国のSarcasm検出タスクKoCoSaの新しいデータセットについて紹介する。
データセットは、1日12.8Kの韓国の対話と、最後のレスポンスでこのタスクのラベルで構成されている。
論文 参考訳(メタデータ) (2024-02-22T10:17:57Z) - Researchers eye-view of sarcasm detection in social media textual
content [0.0]
ソーシャルメディアにおけるあらゆる形態のコミュニケーションにおける皮肉文の使用は、ターゲットユーザに対する生理的効果をもたらす。
本稿では,様々なサルカズム検出手法について論じ,いくつかのアプローチ,および最適な特徴を持つ関連するデータセットを結論づける。
論文 参考訳(メタデータ) (2023-04-17T19:45:10Z) - Learning 3D Human Pose Estimation from Dozens of Datasets using a
Geometry-Aware Autoencoder to Bridge Between Skeleton Formats [80.12253291709673]
本稿では,アフィン結合型オートエンコーダ(ACAE)法を提案する。
このアプローチは、28人の人間のポーズデータセットを使って1つのモデルを監督する、極端なマルチデータセット体制にスケールします。
論文 参考訳(メタデータ) (2022-12-29T22:22:49Z) - Sarcasm Detection Framework Using Emotion and Sentiment Features [62.997667081978825]
本研究では,感情と感情の特徴を取り入れたモデルを提案する。
我々のアプローチは、ソーシャルネットワークプラットフォームとオンラインメディアの4つのデータセットに対して、最先端の結果を得た。
論文 参考訳(メタデータ) (2022-11-23T15:14:44Z) - Sarcasm Detection in Twitter -- Performance Impact when using Data
Augmentation: Word Embeddings [0.0]
サルカスム(Sarcasm)は、通常、誰かをモックしたり、困惑させたり、ユーモラスな目的のために使われる言葉である。
本稿では,RoBERTaを用いたTwitterにおける皮肉識別のコンテキストモデルを提案する。
サーカシックとラベル付けされたデータの20%を増やすために、データ拡張を使用する場合、iSarcasmデータセットで3.2%の性能向上を実現した。
論文 参考訳(メタデータ) (2021-08-23T04:24:12Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Learning to Model and Ignore Dataset Bias with Mixed Capacity Ensembles [66.15398165275926]
本稿では,データセット固有のパターンを自動的に検出・無視する手法を提案する。
我々の方法は、より高い容量モデルでアンサンブルで低容量モデルを訓練する。
視覚的質問応答データセットの10ポイントゲインを含む,すべての設定の改善を示す。
論文 参考訳(メタデータ) (2020-11-07T22:20:03Z) - Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。
データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文 参考訳(メタデータ) (2020-08-02T17:23:55Z) - Sarcasm Detection using Context Separators in Online Discourse [3.655021726150369]
サルカズム(Sarcasm)は、意味が暗黙的に伝えられる複雑な形態の言語である。
本研究では,RoBERTa_largeを用いて2つのデータセットの皮肉を検出する。
また,文脈単語埋め込みモデルの性能向上における文脈の重要性を主張する。
論文 参考訳(メタデータ) (2020-06-01T10:52:35Z) - Can x2vec Save Lives? Integrating Graph and Language Embeddings for
Automatic Mental Health Classification [91.3755431537592]
グラフと言語の埋め込みモデル(metapath2vec と doc2vec)がリソース制限を回避する方法を示します。
統合されると、両データは高度に正確な予測を生成する(90%、偽陽性10%、偽陰性12%)。
これらの結果は、大規模ネットワークにおける行動と言語を同時に分析することの重要性の研究を拡大する。
論文 参考訳(メタデータ) (2020-01-04T20:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。