論文の概要: Deceptive Humor: A Synthetic Multilingual Benchmark Dataset for Bridging Fabricated Claims with Humorous Content
- arxiv url: http://arxiv.org/abs/2503.16031v2
- Date: Sat, 31 May 2025 02:26:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:43.216659
- Title: Deceptive Humor: A Synthetic Multilingual Benchmark Dataset for Bridging Fabricated Claims with Humorous Content
- Title(参考訳): Deceptive Humor: 複合クレームをヒューモラスコンテンツでブリッジするための合成多言語ベンチマークデータセット
- Authors: Sai Kartheek Reddy Kasu, Shankar Biradar, Sunil Saumya,
- Abstract要約: 提案するDeceptive Humor データセット (DHD) は, 偽造クレームから得られたユーモアを注入したコメントの集合である。
それぞれのエントリーには、Satire Level(微妙な風刺は1からオーバート風刺は3まで)とラベルが付けられ、5つのユーモアタイプに分類される。
データセットは英語、テルグ語、ヒンディー語、カンナダ語、タミル語、およびそれらのコードミキシング形式にまたがっており、多言語分析に有用なリソースとなっている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the evolving landscape of online discourse, misinformation increasingly adopts humorous tones to evade detection and gain traction. This work introduces Deceptive Humor as a novel research direction, emphasizing how false narratives, when coated in humor, can become more difficult to detect and more likely to spread. To support research in this space, we present the Deceptive Humor Dataset (DHD) a collection of humor-infused comments derived from fabricated claims using the ChatGPT-4o model. Each entry is labeled with a Satire Level (from 1 for subtle satire to 3 for overt satire) and categorized into five humor types: Dark Humor, Irony, Social Commentary, Wordplay, and Absurdity. The dataset spans English, Telugu, Hindi, Kannada, Tamil, and their code-mixed forms, making it a valuable resource for multilingual analysis. DHD offers a structured foundation for understanding how humor can serve as a vehicle for the propagation of misinformation, subtly enhancing its reach and impact. Strong baselines are established to encourage further research and model development in this emerging area.
- Abstract(参考訳): オンライン談話の進化する風景の中で、誤報は、検出を回避し、トラクションを獲得するためにユーモラスなトーンをますます取り入れている。
この研究は、認知的ユーモアを新しい研究の方向性として導入し、ユーモアでコーティングされた虚偽の物語がより検出しにくくなり、拡散しやすくなることを強調した。
この分野での研究を支援するために,ChatGPT-4oモデルを用いたユーモアを注入したコメントの集合であるDeceptive Humor Dataset (DHD)を提案する。
それぞれのエントリーには、Satire Level(微妙な風刺で1から3まで)とラベルが付けられ、ダーク・ユーモア、アイニー、ソーシャル・コメンタリー、Wordplay、そしてAbsurdityの5つのユーモアタイプに分類される。
データセットは英語、テルグ語、ヒンディー語、カンナダ語、タミル語、およびそれらのコードミキシング形式にまたがっており、多言語分析に有用なリソースとなっている。
DHDは、ユーモアが誤った情報伝達の手段として機能し、そのリーチと影響を微妙に強化する、構造化された基盤を提供する。
この新興地域のさらなる研究とモデル開発を促進するために、強い基盤線が確立されている。
関連論文リスト
- From Punchlines to Predictions: A Metric to Assess LLM Performance in Identifying Humor in Stand-Up Comedy [6.124881326867511]
大きな言語モデルが広く採用されていることを踏まえ、ユーモアとAIの交わりは笑い事ではない。
本研究では,スタンドアップコメディの書き起こしからユーモラスな引用を正確に識別するモデルの有効性を評価する。
ユーモラスなパンチラインを抽出する能力について,様々なプロンプトの中からLLMを評価するために考案された新しいユーモラス検出指標を提案する。
論文 参考訳(メタデータ) (2025-04-12T02:19:53Z) - Chumor 2.0: Towards Benchmarking Chinese Humor Understanding [23.370445567734798]
Chumorは中国初のユーモアデータセットで、既存のユーモアデータセットの規模を超える。
Chumorは中国のRedditのようなプラットフォームで、知的に挑戦的で文化的に特定のジョークを共有することで有名だ。
論文 参考訳(メタデータ) (2024-12-23T17:19:58Z) - Can Pre-trained Language Models Understand Chinese Humor? [74.96509580592004]
本論文は,事前学習言語モデル(PLM)のユーモア理解能力を体系的に研究する最初の論文である。
提案した評価フレームワークのすべてのデータ要件を完全に満たす中国の総合的ユーモアデータセットを構築した。
中国のユーモアデータセットに関する実証的研究は、ユーモア理解と生成におけるPLMの将来の最適化に非常に役立つ貴重な観察結果をもたらす。
論文 参考訳(メタデータ) (2024-07-04T18:13:38Z) - Is AI fun? HumorDB: a curated dataset and benchmark to investigate graphical humor [8.75275650545552]
HumorDBは、視覚的ユーモア理解を促進するために特別に設計された、イメージのみのデータセットである。
このデータセットは、バイナリ分類、レンジ回帰、ペアワイズ比較タスクによる評価を可能にする。
HumorDBは、強力な大規模マルチモーダルモデルの貴重なベンチマークとしての可能性を示している。
論文 参考訳(メタデータ) (2024-06-19T13:51:40Z) - Getting Serious about Humor: Crafting Humor Datasets with Unfunny Large Language Models [27.936545041302377]
大規模言語モデル(LLM)は、テキストを編集することでユーモア検出のための合成データを生成することができる。
我々は、既存の人間のデータセット上でLLMをベンチマークし、現在のLLMは、ジョークを「不快に」する印象的な能力を示すことを示す。
我々は、GPT-4の合成データがバイリンガルアノテータによって高度に評価されているという、コード混成のイングリッシュ・ヒンディー語ユーモアデータセットにアプローチを拡張した。
論文 参考訳(メタデータ) (2024-02-23T02:58:12Z) - OxfordTVG-HIC: Can Machine Make Humorous Captions from Images? [27.899718595182172]
ユーモア生成と理解のための大規模データセットであるOxfordTVG-HIC(Humorous Image Captions)を提案する。
OxfordTVG-HICは幅広い感情的・意味的な多様性を特徴とし、アウト・オブ・コンテクストの例である。
我々は、生成されたテキストのユーモアを評価するために、OxfordTVG-HICをどのように活用できるかを示す。
論文 参考訳(メタデータ) (2023-07-21T14:58:44Z) - ExPUNations: Augmenting Puns with Keywords and Explanations [88.58174386894913]
我々は、キーワードの詳細なクラウドソースアノテーションで既存の句のデータセットを拡張する。
これは、パント専用の広範囲できめ細かなアノテーションを備えた最初のユーモアデータセットである。
句分類支援のための説明生成とキーワード条件付き句生成という2つのタスクを提案する。
論文 参考訳(メタデータ) (2022-10-24T18:12:02Z) - Towards Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results [84.37263300062597]
風は人間の社会的行動、感情、認知の重要な要素である。
現在のユーモア検出法は、ステージ化されたデータのみに基づいており、「現実世界」の応用には不十分である。
約11時間の記録を含むPassau-Spontaneous Football Coach Humorデータセットを導入することで,この障害への対処に寄与する。
論文 参考訳(メタデータ) (2022-09-28T17:36:47Z) - M2H2: A Multimodal Multiparty Hindi Dataset For Humor Recognition in
Conversations [72.81164101048181]
テレビシリーズ『Shrimaan Shrimati Phir Se』の13話から6,191発の発声を含む会話におけるマルチモーダル・マルチパーティ・ヒンディー・ヒューム(M2H2)認識のためのデータセットを提案する。
それぞれの発話はユーモア/非感情ラベルでアノテートされ、音響、視覚、テキストのモダリティを含む。
M2H2データセットにおける実験結果から,マルチモーダル情報はユーモア認識のための単調な情報を補完することが示された。
論文 参考訳(メタデータ) (2021-08-03T02:54:09Z) - Predicting the Humorousness of Tweets Using Gaussian Process Preference
Learning [56.18809963342249]
本稿では,人間の嗜好判断と言語アノテーションの自動生成を利用して,短文のユーモラスさのランク付けと評価を学習する確率論的アプローチを提案する。
本研究は, HAHA@IberLEF 2019データにおける数値スコアの変換と, 提案手法に必要な判定アノテーションの相互変換から生じる問題点について報告する。
論文 参考訳(メタデータ) (2020-08-03T13:05:42Z) - "The Boating Store Had Its Best Sail Ever": Pronunciation-attentive
Contextualized Pun Recognition [80.59427655743092]
そこで我々は,ヒトのユーモアを知覚するために,発音適応型文脈パウン認識(PCPR)を提案する。
PCPRは、周囲の文脈とその対応する音韻記号の関連を捉えることにより、文中の各単語の文脈化された表現を導出する。
その結果,提案手法はパント検出や位置情報タスクにおいて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-04-29T20:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。