論文の概要: Which LLMs Get the Joke? Probing Non-STEM Reasoning Abilities with HumorBench
- arxiv url: http://arxiv.org/abs/2507.21476v1
- Date: Tue, 29 Jul 2025 03:44:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.572597
- Title: Which LLMs Get the Joke? Probing Non-STEM Reasoning Abilities with HumorBench
- Title(参考訳): どのLLMがジョークになるのか? HumorBenchによる非STEM推論能力の検証
- Authors: Reuben Narad, Siddharth Suresh, Jiayi Chen, Pine S. L. Dysart-Bricken, Bob Mankoff, Robert Nowak, Jifan Zhang, Lalit Jain,
- Abstract要約: HumorBenchは、漫画のキャプションで洗練されたユーモアを推論し説明するための、大きな言語モデル(LLM)の能力を評価するために設計されたベンチマークである。
LLMは、ジョーク要素を特定する際のユーモアと能力に関する説明に基づいて評価される。
- 参考スコア(独自算出の注目度): 16.929265302194782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present HumorBench, a benchmark designed to evaluate large language models' (LLMs) ability to reason about and explain sophisticated humor in cartoon captions. As reasoning models increasingly saturate existing benchmarks in mathematics and science, novel and challenging evaluations of model intelligence beyond STEM domains are essential. Reasoning is fundamentally involved in text-based humor comprehension, requiring the identification of connections between concepts in cartoons/captions and external cultural references, wordplays, and other mechanisms. HumorBench includes approximately 300 unique cartoon-caption pairs from the New Yorker Caption Contest and Cartoonstock.com, with expert-annotated evaluation rubrics identifying essential joke elements. LLMs are evaluated based on their explanations towards the humor and abilities in identifying the joke elements. To perform well on this task, models must form and test hypotheses about associations between concepts, potentially backtracking from initial interpretations to arrive at the most plausible explanation. Our extensive benchmarking of current SOTA models reveals three key insights: (1) LLM progress on STEM reasoning transfers effectively to humor comprehension; (2) models trained exclusively on STEM reasoning data still perform well on HumorBench, demonstrating strong transferability of reasoning abilities; and (3) test-time scaling by increasing thinking token budgets yields mixed results across different models in humor reasoning.
- Abstract(参考訳): We present HumorBench, a benchmark designed to evaluate large language model' (LLMs) ability to reason about and explain sophisticated humor in cartoon casts。
推論モデルは、数学と科学の既存のベンチマークを飽和させつつあるため、STEMドメインを超えたモデルインテリジェンスの新規で挑戦的な評価が不可欠である。
推論は基本的にテキストベースのユーモアの理解に関係しており、漫画やキャプションにおける概念と、外部の文化的参照、ワーププレイ、その他のメカニズムの間の関係を識別する必要がある。
HumorBench はNew Yorker Caption Contest と Cartoonstock.com から約300のユニークなアニメ・キャプション・ペアを含む。
LLMは、ジョーク要素を特定する際のユーモアと能力に関する説明に基づいて評価される。
このタスクをうまく実行するには、モデルが概念間の関連性に関する仮説を定式化し、検証する必要がある。
現在のSOTAモデルの広範なベンチマークでは,(1)STEM推論の進行がユーモアの理解に有効であること,(2)STEM推論データにのみ訓練されたモデルがHumorBench上で依然として良好に機能していること,(3)思考トークン予算の増加によるテストタイムスケーリングがユーモアの推論において異なるモデル間で混合結果をもたらすこと,の3つの重要な知見が示されている。
関連論文リスト
- VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos [89.39873803375498]
VideoMathQAは、ビデオ上で時間的に拡張されたクロスモーダル推論を実行できるかどうかを評価するために設計されたベンチマークである。
ベンチマークは10種類の数学的領域にまたがっており、ビデオは10秒から1時間以上に及ぶ。
構造化された視覚的コンテンツを解釈し、指導的物語を理解し、視覚的、音声的、テキスト的モダリティにまたがる共同概念を理解するためのモデルが必要である。
論文 参考訳(メタデータ) (2025-06-05T17:59:58Z) - Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [75.26829371493189]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。
既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。
階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文 参考訳(メタデータ) (2025-06-03T09:01:08Z) - From Punchlines to Predictions: A Metric to Assess LLM Performance in Identifying Humor in Stand-Up Comedy [6.124881326867511]
大きな言語モデルが広く採用されていることを踏まえ、ユーモアとAIの交わりは笑い事ではない。
本研究では,スタンドアップコメディの書き起こしからユーモラスな引用を正確に識別するモデルの有効性を評価する。
ユーモラスなパンチラインを抽出する能力について,様々なプロンプトの中からLLMを評価するために考案された新しいユーモラス検出指標を提案する。
論文 参考訳(メタデータ) (2025-04-12T02:19:53Z) - Innovative Thinking, Infinite Humor: Humor Research of Large Language Models through Structured Thought Leaps [34.35304020094762]
ヒューモアは人間の言葉のニュアンスな側面であり、その理解と生成の課題を提示している。
創造的思考における知識グラフの広さのため、マルチホップ推論は困難である。
ユーモア推論タスクであるLoLについて,より堅牢なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T10:50:16Z) - Can Pre-trained Language Models Understand Chinese Humor? [74.96509580592004]
本論文は,事前学習言語モデル(PLM)のユーモア理解能力を体系的に研究する最初の論文である。
提案した評価フレームワークのすべてのデータ要件を完全に満たす中国の総合的ユーモアデータセットを構築した。
中国のユーモアデータセットに関する実証的研究は、ユーモア理解と生成におけるPLMの将来の最適化に非常に役立つ貴重な観察結果をもたらす。
論文 参考訳(メタデータ) (2024-07-04T18:13:38Z) - HumorDB: Can AI understand graphical humor? [8.75275650545552]
本稿では,AIシステムによる視覚的ユーモア理解の評価と向上を目的としたデータセットであるtextbfHumorDBを紹介する。
我々は,2次ユーモア分類,面白さ評価予測,ペアワイズユーモア比較という3つのタスクにおいて,人間,最先端の視覚モデル,および大きな視覚言語モデルを評価する。
その結果、現在のAIシステムと人間レベルのユーモア理解のギャップが明らかになった。
論文 参考訳(メタデータ) (2024-06-19T13:51:40Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - Do Androids Laugh at Electric Sheep? Humor "Understanding" Benchmarks
from The New Yorker Caption Contest [70.40189243067857]
大きめのニューラルネットワークがジョークを生成できるようになったが、本当にユーモアを「理解」しているのだろうか?
私たちは、New Yorker Cartoon Caption Contestから派生した3つのタスクでAIモデルに挑戦します。
どちらのモデルも3つのタスクすべてで苦労しています。
論文 参考訳(メタデータ) (2022-09-13T20:54:00Z) - Uncertainty and Surprisal Jointly Deliver the Punchline: Exploiting
Incongruity-Based Features for Humor Recognition [0.6445605125467573]
ジョークを2つの異なるコンポーネントに分割します。セットアップとパンチラインです。
ユーモアの不整合理論に触発され、セマンティック不確実性を生み出す部分としてセットをモデル化する。
ますます強力な言語モデルによって、私たちはGPT-2言語モデルにパンチラインとともにセットアップをフィードすることができた。
論文 参考訳(メタデータ) (2020-12-22T13:48:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。