論文の概要: Getting Serious about Humor: Crafting Humor Datasets with Unfunny Large Language Models
- arxiv url: http://arxiv.org/abs/2403.00794v2
- Date: Fri, 21 Jun 2024 17:12:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 19:46:30.032885
- Title: Getting Serious about Humor: Crafting Humor Datasets with Unfunny Large Language Models
- Title(参考訳): Humorについて真剣に語る - 不幸な大規模言語モデルによるHummorデータセットの構築
- Authors: Zachary Horvitz, Jingru Chen, Rahul Aditya, Harshvardhan Srivastava, Robert West, Zhou Yu, Kathleen McKeown,
- Abstract要約: 大規模言語モデル(LLM)は、テキストを編集することでユーモア検出のための合成データを生成することができる。
我々は、既存の人間のデータセット上でLLMをベンチマークし、現在のLLMは、ジョークを「不快に」する印象的な能力を示すことを示す。
我々は、GPT-4の合成データがバイリンガルアノテータによって高度に評価されているという、コード混成のイングリッシュ・ヒンディー語ユーモアデータセットにアプローチを拡張した。
- 参考スコア(独自算出の注目度): 27.936545041302377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humor is a fundamental facet of human cognition and interaction. Yet, despite recent advances in natural language processing, humor detection remains a challenging task that is complicated by the scarcity of datasets that pair humorous texts with similar non-humorous counterparts. In our work, we investigate whether large language models (LLMs), can generate synthetic data for humor detection via editing texts. We benchmark LLMs on an existing human dataset and show that current LLMs display an impressive ability to 'unfun' jokes, as judged by humans and as measured on the downstream task of humor detection. We extend our approach to a code-mixed English-Hindi humor dataset, where we find that GPT-4's synthetic data is highly rated by bilingual annotators and provides challenging adversarial examples for humor classifiers.
- Abstract(参考訳): 風は人間の認知と相互作用の基本的な側面である。
しかし、近年の自然言語処理の進歩にもかかわらず、ユーモア検出は、類似の非ユーモラステキストとユーモラステキストをペアリングするデータセットの不足によって複雑化している課題である。
本研究では,大言語モデル(LLM)がテキスト編集によるユーモア検出のための合成データを生成することができるかどうかを検討する。
我々は、既存の人間のデータセット上でLSMをベンチマークし、現在のLSMは、人間によって判断され、ユーモア検出の下流のタスクで測定されるように、ジョークを「不快に」する印象的な能力を示すことを示した。
我々は、GPT-4の合成データがバイリンガルアノテータによって高い評価を受けており、ユーモア分類のための挑戦的な逆例を提供するという、コード混合のイングリッシュ・ヒンディー語ユーモアデータセットにアプローチを拡張した。
関連論文リスト
- Can Pre-trained Language Models Understand Chinese Humor? [74.96509580592004]
本論文は,事前学習言語モデル(PLM)のユーモア理解能力を体系的に研究する最初の論文である。
提案した評価フレームワークのすべてのデータ要件を完全に満たす中国の総合的ユーモアデータセットを構築した。
中国のユーモアデータセットに関する実証的研究は、ユーモア理解と生成におけるPLMの将来の最適化に非常に役立つ貴重な観察結果をもたらす。
論文 参考訳(メタデータ) (2024-07-04T18:13:38Z) - Is AI fun? HumorDB: a curated dataset and benchmark to investigate graphical humor [8.75275650545552]
HumorDBは、視覚的ユーモア理解を促進するために特別に設計された、イメージのみのデータセットである。
このデータセットは、バイナリ分類、レンジ回帰、ペアワイズ比較タスクによる評価を可能にする。
HumorDBは、強力な大規模マルチモーダルモデルの貴重なベンチマークとしての可能性を示している。
論文 参考訳(メタデータ) (2024-06-19T13:51:40Z) - Chumor 1.0: A Truly Funny and Challenging Chinese Humor Understanding Dataset from Ruo Zhi Ba [7.878358092927338]
われわれは、中国のRedditのようなプラットフォームであるRuo Zhi Ba(RZB)をベースとしたデータセットであるChumorを構築した。
ジョークごとの説明に注釈を付け,2つの最先端LCM, GPT-4o, ERNIE Botに対する人間の説明を評価する。
評価の結果,SOTA LLMにおいてもChumorは難易度が高く,人間によるChumorのジョークの説明はLLMによる説明よりもはるかに優れていることがわかった。
論文 参考訳(メタデータ) (2024-06-18T16:22:05Z) - Making Flow-Matching-Based Zero-Shot Text-to-Speech Laugh as You Like [49.2096391012794]
ELaTEはゼロショットのTSであり、短い音声プロンプトに基づいて、あらゆる話者の自然な笑い声を生成することができる。
本研究では,条件付きフローマッチングに基づくゼロショットTSに基づくモデルを開発した。
ELaTE は従来のモデルに比べて格段に高い品質と制御性で笑い音声を生成することができることを示す。
論文 参考訳(メタデータ) (2024-02-12T02:58:10Z) - OxfordTVG-HIC: Can Machine Make Humorous Captions from Images? [27.899718595182172]
ユーモア生成と理解のための大規模データセットであるOxfordTVG-HIC(Humorous Image Captions)を提案する。
OxfordTVG-HICは幅広い感情的・意味的な多様性を特徴とし、アウト・オブ・コンテクストの例である。
我々は、生成されたテキストのユーモアを評価するために、OxfordTVG-HICをどのように活用できるかを示す。
論文 参考訳(メタデータ) (2023-07-21T14:58:44Z) - The Naughtyformer: A Transformer Understands Offensive Humor [63.05016513788047]
Redditから抽出された新しいジョークデータセットを導入し、Naughtyformerと呼ばれる微調整されたトランスフォーマーを用いてサブタイプ分類タスクを解決する。
本モデルでは, ジョークの攻撃性の検出が, 最先端の手法と比較して有意に優れていることを示す。
論文 参考訳(メタデータ) (2022-11-25T20:37:58Z) - ExPUNations: Augmenting Puns with Keywords and Explanations [88.58174386894913]
我々は、キーワードの詳細なクラウドソースアノテーションで既存の句のデータセットを拡張する。
これは、パント専用の広範囲できめ細かなアノテーションを備えた最初のユーモアデータセットである。
句分類支援のための説明生成とキーワード条件付き句生成という2つのタスクを提案する。
論文 参考訳(メタデータ) (2022-10-24T18:12:02Z) - Towards Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results [84.37263300062597]
風は人間の社会的行動、感情、認知の重要な要素である。
現在のユーモア検出法は、ステージ化されたデータのみに基づいており、「現実世界」の応用には不十分である。
約11時間の記録を含むPassau-Spontaneous Football Coach Humorデータセットを導入することで,この障害への対処に寄与する。
論文 参考訳(メタデータ) (2022-09-28T17:36:47Z) - M2H2: A Multimodal Multiparty Hindi Dataset For Humor Recognition in
Conversations [72.81164101048181]
テレビシリーズ『Shrimaan Shrimati Phir Se』の13話から6,191発の発声を含む会話におけるマルチモーダル・マルチパーティ・ヒンディー・ヒューム(M2H2)認識のためのデータセットを提案する。
それぞれの発話はユーモア/非感情ラベルでアノテートされ、音響、視覚、テキストのモダリティを含む。
M2H2データセットにおける実験結果から,マルチモーダル情報はユーモア認識のための単調な情報を補完することが示された。
論文 参考訳(メタデータ) (2021-08-03T02:54:09Z) - Dutch Humor Detection by Generating Negative Examples [5.888646114353371]
覚醒検出は通常二分分類タスクとしてモデル化され、与えられたテキストがジョークか他のタイプのテキストかを予測するように訓練される。
本稿では,本来のジョークデータセットを模倣するテキスト生成アルゴリズムを提案し,学習アルゴリズムの難易度を高める。
古典的ニューラルネットワークアプローチのユーモア検出能力と,最先端のオランダ語モデルであるRobBERTとの比較を行った。
論文 参考訳(メタデータ) (2020-10-26T15:15:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。