論文の概要: HumorDB: Can AI understand graphical humor?
- arxiv url: http://arxiv.org/abs/2406.13564v2
- Date: Thu, 24 Jul 2025 23:41:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.663949
- Title: HumorDB: Can AI understand graphical humor?
- Title(参考訳): HumorDB: AIはグラフィカルユーモアを理解できますか?
- Authors: Veedant Jain, Gabriel Kreiman, Felipe dos Santos Alves Feitosa,
- Abstract要約: 本稿では,AIシステムによる視覚的ユーモア理解の評価と向上を目的としたデータセットであるtextbfHumorDBを紹介する。
我々は,2次ユーモア分類,面白さ評価予測,ペアワイズユーモア比較という3つのタスクにおいて,人間,最先端の視覚モデル,および大きな視覚言語モデルを評価する。
その結果、現在のAIシステムと人間レベルのユーモア理解のギャップが明らかになった。
- 参考スコア(独自算出の注目度): 8.75275650545552
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite significant advancements in image segmentation and object detection, understanding complex scenes remains a significant challenge. Here, we focus on graphical humor as a paradigmatic example of image interpretation that requires elucidating the interaction of different scene elements in the context of prior cognitive knowledge. This paper introduces \textbf{HumorDB}, a novel, controlled, and carefully curated dataset designed to evaluate and advance visual humor understanding by AI systems. The dataset comprises diverse images spanning photos, cartoons, sketches, and AI-generated content, including minimally contrastive pairs where subtle edits differentiate between humorous and non-humorous versions. We evaluate humans, state-of-the-art vision models, and large vision-language models on three tasks: binary humor classification, funniness rating prediction, and pairwise humor comparison. The results reveal a gap between current AI systems and human-level humor understanding. While pretrained vision-language models perform better than vision-only models, they still struggle with abstract sketches and subtle humor cues. Analysis of attention maps shows that even when models correctly classify humorous images, they often fail to focus on the precise regions that make the image funny. Preliminary mechanistic interpretability studies and evaluation of model explanations provide initial insights into how different architectures process humor. Our results identify promising trends and current limitations, suggesting that an effective understanding of visual humor requires sophisticated architectures capable of detecting subtle contextual features and bridging the gap between visual perception and abstract reasoning. All the code and data are available here: \href{https://github.com/kreimanlab/HumorDB}{https://github.com/kreimanlab/HumorDB}
- Abstract(参考訳): 画像のセグメンテーションとオブジェクト検出の大幅な進歩にもかかわらず、複雑なシーンを理解することは依然として重要な課題である。
本稿では,従来の認知的知識の文脈において,異なるシーン要素の相互作用を解明する必要がある画像解釈のパラダイム的な例として,グラフィカルユーモアに注目した。
本稿では,AIシステムによる視覚的ユーモア理解の評価と向上を目的とした,新しい,制御された,慎重にキュレートされたデータセットである「textbf{HumorDB}」を紹介する。
このデータセットは、写真、漫画、スケッチ、AI生成コンテンツにまたがる多様な画像で構成されており、微妙な編集がユーモラスバージョンと非ハーモラスバージョンを区別する最小限のコントラストのペアを含んでいる。
我々は,2次ユーモア分類,面白さ評価予測,ペアワイズユーモア比較という3つのタスクにおいて,人間,最先端の視覚モデル,および大きな視覚言語モデルを評価する。
その結果、現在のAIシステムと人間レベルのユーモア理解のギャップが明らかになった。
事前訓練された視覚言語モデルは、視覚のみのモデルよりも優れているが、それでも抽象的なスケッチと微妙なユーモアの手がかりに苦しむ。
注意マップの分析は、たとえモデルがユーモラスな画像を正しく分類したとしても、画像が面白くする正確な領域に焦点を合わせることに失敗することを示している。
予備的な機械論的解釈可能性の研究とモデル説明の評価は、異なるアーキテクチャがユーモアをどのように処理するかに関する最初の洞察を提供する。
その結果,視覚的ユーモアを効果的に理解するには,微妙な文脈的特徴を検知し,視覚知覚と抽象的推論のギャップを埋めることのできる高度なアーキテクチャが必要であることが示唆された。
すべてのコードとデータはここで入手できる。 \href{https://github.com/kreimanlab/HumorDB}{https://github.com/kreimanlab/HumorDB}
関連論文リスト
- From Punchlines to Predictions: A Metric to Assess LLM Performance in Identifying Humor in Stand-Up Comedy [6.124881326867511]
大きな言語モデルが広く採用されていることを踏まえ、ユーモアとAIの交わりは笑い事ではない。
本研究では,スタンドアップコメディの書き起こしからユーモラスな引用を正確に識別するモデルの有効性を評価する。
ユーモラスなパンチラインを抽出する能力について,様々なプロンプトの中からLLMを評価するために考案された新しいユーモラス検出指標を提案する。
論文 参考訳(メタデータ) (2025-04-12T02:19:53Z) - Deceptive Humor: A Synthetic Multilingual Benchmark Dataset for Bridging Fabricated Claims with Humorous Content [0.0]
Deceptive Humor データセット (DHD) は、偽造されたクレームと誤情報から派生したユーモアを研究するための新しいリソースである。
DHDは、偽の物語から生成されたユーモアを注入したコメントで構成され、偽造されたクレームと操作された情報を取り入れている。
データセットは、英語、Telugu、Hindi、Kannada、Tamil、およびそれらのコード混合変種(Te-En、Hi-En、Ka-En、Ta-En)を含む複数の言語にまたがる。
論文 参考訳(メタデータ) (2025-03-20T10:58:02Z) - Can Pre-trained Language Models Understand Chinese Humor? [74.96509580592004]
本論文は,事前学習言語モデル(PLM)のユーモア理解能力を体系的に研究する最初の論文である。
提案した評価フレームワークのすべてのデータ要件を完全に満たす中国の総合的ユーモアデータセットを構築した。
中国のユーモアデータセットに関する実証的研究は、ユーモア理解と生成におけるPLMの将来の最適化に非常に役立つ貴重な観察結果をもたらす。
論文 参考訳(メタデータ) (2024-07-04T18:13:38Z) - Getting Serious about Humor: Crafting Humor Datasets with Unfunny Large Language Models [27.936545041302377]
大規模言語モデル(LLM)は、テキストを編集することでユーモア検出のための合成データを生成することができる。
我々は、既存の人間のデータセット上でLLMをベンチマークし、現在のLLMは、ジョークを「不快に」する印象的な能力を示すことを示す。
我々は、GPT-4の合成データがバイリンガルアノテータによって高度に評価されているという、コード混成のイングリッシュ・ヒンディー語ユーモアデータセットにアプローチを拡張した。
論文 参考訳(メタデータ) (2024-02-23T02:58:12Z) - OxfordTVG-HIC: Can Machine Make Humorous Captions from Images? [27.899718595182172]
ユーモア生成と理解のための大規模データセットであるOxfordTVG-HIC(Humorous Image Captions)を提案する。
OxfordTVG-HICは幅広い感情的・意味的な多様性を特徴とし、アウト・オブ・コンテクストの例である。
我々は、生成されたテキストのユーモアを評価するために、OxfordTVG-HICをどのように活用できるかを示す。
論文 参考訳(メタデータ) (2023-07-21T14:58:44Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - ExPUNations: Augmenting Puns with Keywords and Explanations [88.58174386894913]
我々は、キーワードの詳細なクラウドソースアノテーションで既存の句のデータセットを拡張する。
これは、パント専用の広範囲できめ細かなアノテーションを備えた最初のユーモアデータセットである。
句分類支援のための説明生成とキーワード条件付き句生成という2つのタスクを提案する。
論文 参考訳(メタデータ) (2022-10-24T18:12:02Z) - Towards Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results [84.37263300062597]
風は人間の社会的行動、感情、認知の重要な要素である。
現在のユーモア検出法は、ステージ化されたデータのみに基づいており、「現実世界」の応用には不十分である。
約11時間の記録を含むPassau-Spontaneous Football Coach Humorデータセットを導入することで,この障害への対処に寄与する。
論文 参考訳(メタデータ) (2022-09-28T17:36:47Z) - Do Androids Laugh at Electric Sheep? Humor "Understanding" Benchmarks
from The New Yorker Caption Contest [70.40189243067857]
大きめのニューラルネットワークがジョークを生成できるようになったが、本当にユーモアを「理解」しているのだろうか?
私たちは、New Yorker Cartoon Caption Contestから派生した3つのタスクでAIモデルに挑戦します。
どちらのモデルも3つのタスクすべてで苦労しています。
論文 参考訳(メタデータ) (2022-09-13T20:54:00Z) - M2H2: A Multimodal Multiparty Hindi Dataset For Humor Recognition in
Conversations [72.81164101048181]
テレビシリーズ『Shrimaan Shrimati Phir Se』の13話から6,191発の発声を含む会話におけるマルチモーダル・マルチパーティ・ヒンディー・ヒューム(M2H2)認識のためのデータセットを提案する。
それぞれの発話はユーモア/非感情ラベルでアノテートされ、音響、視覚、テキストのモダリティを含む。
M2H2データセットにおける実験結果から,マルチモーダル情報はユーモア認識のための単調な情報を補完することが示された。
論文 参考訳(メタデータ) (2021-08-03T02:54:09Z) - Laughing Heads: Can Transformers Detect What Makes a Sentence Funny? [18.67834526946997]
我々は、最小組の文からなるデータセット上で、トランスフォーマーに基づくユーモア認識モデルを訓練し、分析する。
一致したデータセットは以前のデータセットよりもはるかに難しいが、トランスフォーマーベースのモデルは、高精度(78%)の一致したペアでユーモラスな文を認識する。
最も顕著なことは、訓練時にこの情報にアクセスしなくても、一つの注意頭がテスト文をユーモラスにする単語を認識することを学ぶという明確な証拠を見つけることである。
論文 参考訳(メタデータ) (2021-05-19T14:02:25Z) - Humor@IITK at SemEval-2021 Task 7: Large Language Models for Quantifying
Humor and Offensiveness [2.251416625953577]
本稿では,大きなニューラルモデルとそのアンサンブルがユーモア/オフィス検出と評価に関連する複雑さを捕捉できるかどうかを検討する。
SemEval-2021 Task 7: HaHackathonによる実験により,このようなモデルを用いて合理的なユーモアと犯罪検知システムを開発できることが判明した。
論文 参考訳(メタデータ) (2021-04-02T08:22:02Z) - Federated Learning with Diversified Preference for Humor Recognition [40.89453484353102]
We propose the FedHumor approach to recognize humorous text contents in a Personal manner through federated learning (FL)。
様々なユーモア嗜好を持つ人々に対して、FedHumorのユーモア内容の正確な認識において、9つの最先端ユーモア認識アプローチと比較して、実験は大きな利点を示す。
論文 参考訳(メタデータ) (2020-12-03T03:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。