論文の概要: Deceptive Humor: A Synthetic Multilingual Benchmark Dataset for Bridging Fabricated Claims with Humorous Content
- arxiv url: http://arxiv.org/abs/2503.16031v1
- Date: Thu, 20 Mar 2025 10:58:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:34:44.862289
- Title: Deceptive Humor: A Synthetic Multilingual Benchmark Dataset for Bridging Fabricated Claims with Humorous Content
- Title(参考訳): Deceptive Humor: 複合クレームをヒューモラスコンテンツでブリッジするための合成多言語ベンチマークデータセット
- Authors: Sai Kartheek Reddy Kasu, Shankar Biradar, Sunil Saumya,
- Abstract要約: Deceptive Humor データセット (DHD) は、偽造されたクレームと誤情報から派生したユーモアを研究するための新しいリソースである。
DHDは、偽の物語から生成されたユーモアを注入したコメントで構成され、偽造されたクレームと操作された情報を取り入れている。
データセットは、英語、Telugu、Hindi、Kannada、Tamil、およびそれらのコード混合変種(Te-En、Hi-En、Ka-En、Ta-En)を含む複数の言語にまたがる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper presents the Deceptive Humor Dataset (DHD), a novel resource for studying humor derived from fabricated claims and misinformation. In an era of rampant misinformation, understanding how humor intertwines with deception is essential. DHD consists of humor-infused comments generated from false narratives, incorporating fabricated claims and manipulated information using the ChatGPT-4o model. Each instance is labeled with a Satire Level, ranging from 1 for subtle satire to 3 for high-level satire and classified into five distinct Humor Categories: Dark Humor, Irony, Social Commentary, Wordplay, and Absurdity. The dataset spans multiple languages including English, Telugu, Hindi, Kannada, Tamil, and their code-mixed variants (Te-En, Hi-En, Ka-En, Ta-En), making it a valuable multilingual benchmark. By introducing DHD, we establish a structured foundation for analyzing humor in deceptive contexts, paving the way for a new research direction that explores how humor not only interacts with misinformation but also influences its perception and spread. We establish strong baselines for the proposed dataset, providing a foundation for future research to benchmark and advance deceptive humor detection models.
- Abstract(参考訳): 本稿では,偽造された主張や誤情報から得られたユーモアを研究するための新たな資源である,知覚的ユーモアデータセット(DHD)について述べる。
急激な誤報の時代には、ユーモアが詐欺とどのように絡み合うかを理解することが不可欠である。
DHDは、偽の物語から生成されたユーモアを注入したコメントで構成されており、製造されたクレームとChatGPT-4oモデルを用いて情報を操作している。
それぞれのインスタンスにはSatire Levelというラベルが付けられており、微妙な風刺では1つから高レベルの風刺では3つまであり、ダーク・ユーモア、アイニー、ソーシャル・コメンタリー、Wordplay、そしてAbsurdityという5つの異なるヒューモア・カテゴリに分類される。
このデータセットは、英語、Telugu、Hindi、Kannada、Tamilなど、さまざまな言語にまたがる。
DHDを導入することで,ユーモアが誤情報とどのように相互作用するかだけでなく,その知覚や拡散に影響を及ぼすのかを探求する新たな研究方向の道を開いた。
提案したデータセットの強力なベースラインを確立し、将来の研究の基盤として、偽りのユーモア検出モデルをベンチマークし、前進させる。
関連論文リスト
- Chumor 2.0: Towards Benchmarking Chinese Humor Understanding [23.370445567734798]
Chumorは中国初のユーモアデータセットで、既存のユーモアデータセットの規模を超える。
Chumorは中国のRedditのようなプラットフォームで、知的に挑戦的で文化的に特定のジョークを共有することで有名だ。
論文 参考訳(メタデータ) (2024-12-23T17:19:58Z) - Can Pre-trained Language Models Understand Chinese Humor? [74.96509580592004]
本論文は,事前学習言語モデル(PLM)のユーモア理解能力を体系的に研究する最初の論文である。
提案した評価フレームワークのすべてのデータ要件を完全に満たす中国の総合的ユーモアデータセットを構築した。
中国のユーモアデータセットに関する実証的研究は、ユーモア理解と生成におけるPLMの将来の最適化に非常に役立つ貴重な観察結果をもたらす。
論文 参考訳(メタデータ) (2024-07-04T18:13:38Z) - Is AI fun? HumorDB: a curated dataset and benchmark to investigate graphical humor [8.75275650545552]
HumorDBは、視覚的ユーモア理解を促進するために特別に設計された、イメージのみのデータセットである。
このデータセットは、バイナリ分類、レンジ回帰、ペアワイズ比較タスクによる評価を可能にする。
HumorDBは、強力な大規模マルチモーダルモデルの貴重なベンチマークとしての可能性を示している。
論文 参考訳(メタデータ) (2024-06-19T13:51:40Z) - Chumor 1.0: A Truly Funny and Challenging Chinese Humor Understanding Dataset from Ruo Zhi Ba [7.878358092927338]
われわれは、中国のRedditのようなプラットフォームであるRuo Zhi Ba(RZB)をベースとしたデータセットであるChumorを構築した。
ジョークごとの説明に注釈を付け,2つの最先端LCM, GPT-4o, ERNIE Botに対する人間の説明を評価する。
評価の結果,SOTA LLMにおいてもChumorは難易度が高く,人間によるChumorのジョークの説明はLLMによる説明よりもはるかに優れていることがわかった。
論文 参考訳(メタデータ) (2024-06-18T16:22:05Z) - Getting Serious about Humor: Crafting Humor Datasets with Unfunny Large Language Models [27.936545041302377]
大規模言語モデル(LLM)は、テキストを編集することでユーモア検出のための合成データを生成することができる。
我々は、既存の人間のデータセット上でLLMをベンチマークし、現在のLLMは、ジョークを「不快に」する印象的な能力を示すことを示す。
我々は、GPT-4の合成データがバイリンガルアノテータによって高度に評価されているという、コード混成のイングリッシュ・ヒンディー語ユーモアデータセットにアプローチを拡張した。
論文 参考訳(メタデータ) (2024-02-23T02:58:12Z) - OxfordTVG-HIC: Can Machine Make Humorous Captions from Images? [27.899718595182172]
ユーモア生成と理解のための大規模データセットであるOxfordTVG-HIC(Humorous Image Captions)を提案する。
OxfordTVG-HICは幅広い感情的・意味的な多様性を特徴とし、アウト・オブ・コンテクストの例である。
我々は、生成されたテキストのユーモアを評価するために、OxfordTVG-HICをどのように活用できるかを示す。
論文 参考訳(メタデータ) (2023-07-21T14:58:44Z) - ExPUNations: Augmenting Puns with Keywords and Explanations [88.58174386894913]
我々は、キーワードの詳細なクラウドソースアノテーションで既存の句のデータセットを拡張する。
これは、パント専用の広範囲できめ細かなアノテーションを備えた最初のユーモアデータセットである。
句分類支援のための説明生成とキーワード条件付き句生成という2つのタスクを提案する。
論文 参考訳(メタデータ) (2022-10-24T18:12:02Z) - Towards Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results [84.37263300062597]
風は人間の社会的行動、感情、認知の重要な要素である。
現在のユーモア検出法は、ステージ化されたデータのみに基づいており、「現実世界」の応用には不十分である。
約11時間の記録を含むPassau-Spontaneous Football Coach Humorデータセットを導入することで,この障害への対処に寄与する。
論文 参考訳(メタデータ) (2022-09-28T17:36:47Z) - M2H2: A Multimodal Multiparty Hindi Dataset For Humor Recognition in
Conversations [72.81164101048181]
テレビシリーズ『Shrimaan Shrimati Phir Se』の13話から6,191発の発声を含む会話におけるマルチモーダル・マルチパーティ・ヒンディー・ヒューム(M2H2)認識のためのデータセットを提案する。
それぞれの発話はユーモア/非感情ラベルでアノテートされ、音響、視覚、テキストのモダリティを含む。
M2H2データセットにおける実験結果から,マルチモーダル情報はユーモア認識のための単調な情報を補完することが示された。
論文 参考訳(メタデータ) (2021-08-03T02:54:09Z) - Predicting the Humorousness of Tweets Using Gaussian Process Preference
Learning [56.18809963342249]
本稿では,人間の嗜好判断と言語アノテーションの自動生成を利用して,短文のユーモラスさのランク付けと評価を学習する確率論的アプローチを提案する。
本研究は, HAHA@IberLEF 2019データにおける数値スコアの変換と, 提案手法に必要な判定アノテーションの相互変換から生じる問題点について報告する。
論文 参考訳(メタデータ) (2020-08-03T13:05:42Z) - "The Boating Store Had Its Best Sail Ever": Pronunciation-attentive
Contextualized Pun Recognition [80.59427655743092]
そこで我々は,ヒトのユーモアを知覚するために,発音適応型文脈パウン認識(PCPR)を提案する。
PCPRは、周囲の文脈とその対応する音韻記号の関連を捉えることにより、文中の各単語の文脈化された表現を導出する。
その結果,提案手法はパント検出や位置情報タスクにおいて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-04-29T20:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。