論文の概要: Dark & Stormy: Modeling Humor in the Worst Sentences Ever Written
- arxiv url: http://arxiv.org/abs/2510.24538v1
- Date: Tue, 28 Oct 2025 15:42:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.256556
- Title: Dark & Stormy: Modeling Humor in the Worst Sentences Ever Written
- Title(参考訳): ダーク・アンド・ストーム」:最悪の文で噂をモデル化する
- Authors: Venkata S Govindarajan, Laura Biester,
- Abstract要約: 本稿では,Bulwer-Lytton Fiction Contestの文の新たなコーパスを分析し,英語の「悪い」ユーモアをよりよく理解する。
標準的なユーモア検出モデルは私たちのコーパスでは不十分であり、文学機器の分析により、これらの文が既存のユーモアデータセットに共通する特徴を組み合わせることが判明した。
- 参考スコア(独自算出の注目度): 5.3396025328563175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Textual humor is enormously diverse and computational studies need to account for this range, including intentionally bad humor. In this paper, we curate and analyze a novel corpus of sentences from the Bulwer-Lytton Fiction Contest to better understand "bad" humor in English. Standard humor detection models perform poorly on our corpus, and an analysis of literary devices finds that these sentences combine features common in existing humor datasets (e.g., puns, irony) with metaphor, metafiction and simile. LLMs prompted to synthesize contest-style sentences imitate the form but exaggerate the effect by over-using certain literary devices, and including far more novel adjective-noun bigrams than human writers. Data, code and analysis are available at https://github.com/venkatasg/bulwer-lytton
- Abstract(参考訳): テキストのユーモアは極めて多様であり、計算研究は意図的に悪いユーモアを含むこの範囲を考慮する必要がある。
本稿では,Bulwer-Lytton Fiction Contestからの文の新たなコーパスをキュレートし,解析し,英語の「悪い」ユーモアをよりよく理解する。
標準的なユーモア検出モデルは、私たちのコーパスでは不十分であり、文学機器の分析により、これらの文は、既存のユーモアデータセット(例えば、句、皮肉)に共通する特徴と、メタフィクション、シミュアを組み合わせていることがわかった。
LLMは、この形式を模倣したコンテストスタイルの文を合成するよう促したが、特定の文学機器を過剰に使用することでその効果を誇張し、人間の作家よりもはるかに新しい形容詞・名詞のビッグラムを含むようにした。
データ、コード、分析はhttps://github.com/venkatasg/bulwer-lyttonで入手できる。
関連論文リスト
- Engagement Undermines Safety: How Stereotypes and Toxicity Shape Humor in Language Models [55.98686105081078]
大規模言語モデルは、クリエイティブな執筆やエンゲージメントコンテンツにますます使われ、アウトプットに対する安全性の懸念が高まっている。
本研究は, 現代のLLMパイプラインにおいて, ユーモア, 立体特異性, 毒性を測定することによって, 有害な内容とどのように結合するかを評価する。
論文 参考訳(メタデータ) (2025-10-21T09:28:09Z) - From Punchlines to Predictions: A Metric to Assess LLM Performance in Identifying Humor in Stand-Up Comedy [6.124881326867511]
大きな言語モデルが広く採用されていることを踏まえ、ユーモアとAIの交わりは笑い事ではない。
本研究では,スタンドアップコメディの書き起こしからユーモラスな引用を正確に識別するモデルの有効性を評価する。
ユーモラスなパンチラインを抽出する能力について,様々なプロンプトの中からLLMを評価するために考案された新しいユーモラス検出指標を提案する。
論文 参考訳(メタデータ) (2025-04-12T02:19:53Z) - Deceptive Humor: A Synthetic Multilingual Benchmark Dataset for Bridging Fabricated Claims with Humorous Content [0.0]
提案するDeceptive Humor データセット (DHD) は, 偽造クレームから得られたユーモアを注入したコメントの集合である。
それぞれのエントリーには、Satire Level(微妙な風刺は1からオーバート風刺は3まで)とラベルが付けられ、5つのユーモアタイプに分類される。
データセットは英語、テルグ語、ヒンディー語、カンナダ語、タミル語、およびそれらのコードミキシング形式にまたがっており、多言語分析に有用なリソースとなっている。
論文 参考訳(メタデータ) (2025-03-20T10:58:02Z) - Getting Serious about Humor: Crafting Humor Datasets with Unfunny Large Language Models [27.936545041302377]
大規模言語モデル(LLM)は、テキストを編集することでユーモア検出のための合成データを生成することができる。
我々は、既存の人間のデータセット上でLLMをベンチマークし、現在のLLMは、ジョークを「不快に」する印象的な能力を示すことを示す。
我々は、GPT-4の合成データがバイリンガルアノテータによって高度に評価されているという、コード混成のイングリッシュ・ヒンディー語ユーモアデータセットにアプローチを拡張した。
論文 参考訳(メタデータ) (2024-02-23T02:58:12Z) - The Naughtyformer: A Transformer Understands Offensive Humor [63.05016513788047]
Redditから抽出された新しいジョークデータセットを導入し、Naughtyformerと呼ばれる微調整されたトランスフォーマーを用いてサブタイプ分類タスクを解決する。
本モデルでは, ジョークの攻撃性の検出が, 最先端の手法と比較して有意に優れていることを示す。
論文 参考訳(メタデータ) (2022-11-25T20:37:58Z) - ExPUNations: Augmenting Puns with Keywords and Explanations [88.58174386894913]
我々は、キーワードの詳細なクラウドソースアノテーションで既存の句のデータセットを拡張する。
これは、パント専用の広範囲できめ細かなアノテーションを備えた最初のユーモアデータセットである。
句分類支援のための説明生成とキーワード条件付き句生成という2つのタスクを提案する。
論文 参考訳(メタデータ) (2022-10-24T18:12:02Z) - Do Androids Laugh at Electric Sheep? Humor "Understanding" Benchmarks
from The New Yorker Caption Contest [70.40189243067857]
大きめのニューラルネットワークがジョークを生成できるようになったが、本当にユーモアを「理解」しているのだろうか?
私たちは、New Yorker Cartoon Caption Contestから派生した3つのタスクでAIモデルに挑戦します。
どちらのモデルも3つのタスクすべてで苦労しています。
論文 参考訳(メタデータ) (2022-09-13T20:54:00Z) - Tortured phrases: A dubious writing style emerging in science. Evidence
of critical issues affecting established journals [69.76097138157816]
確率的テキストジェネレータは10年以上にわたって偽の科学論文の作成に使われてきた。
複雑なAIを利用した生成技術は、人間のものと区別できないテキストを生成する。
一部のウェブサイトはテキストを無料で書き直し、拷問されたフレーズでいっぱいのgobbledegookを生成する。
論文 参考訳(メタデータ) (2021-07-12T20:47:08Z) - "The Boating Store Had Its Best Sail Ever": Pronunciation-attentive
Contextualized Pun Recognition [80.59427655743092]
そこで我々は,ヒトのユーモアを知覚するために,発音適応型文脈パウン認識(PCPR)を提案する。
PCPRは、周囲の文脈とその対応する音韻記号の関連を捉えることにより、文中の各単語の文脈化された表現を導出する。
その結果,提案手法はパント検出や位置情報タスクにおいて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-04-29T20:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。