論文の概要: On the Wings of Imagination: Conflicting Script-based Multi-role Framework for Humor Caption Generation
- arxiv url: http://arxiv.org/abs/2602.06423v1
- Date: Fri, 06 Feb 2026 06:41:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.261914
- Title: On the Wings of Imagination: Conflicting Script-based Multi-role Framework for Humor Caption Generation
- Title(参考訳): Imaginationの翼について--Hummor Caption Generationのためのスクリプトベースのマルチロールフレームワークの対立
- Authors: Wenbo Shang, Yuxi Sun, Jing Ma, Xin Huang,
- Abstract要約: ユーモア(英: Humor)は、日常生活において一般的に用いられ、複雑な人間の言語である。
本稿では,基本的ユーモア理論であるGTVHに基づく新しいユーモア生成機構を開発する。
そこで本研究では,ユーモア理論に基づくマルチロールLLM協調フレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.157232656580659
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humor is a commonly used and intricate human language in daily life. Humor generation, especially in multi-modal scenarios, is a challenging task for large language models (LLMs), which is typically as funny caption generation for images, requiring visual understanding, humor reasoning, creative imagination, and so on. Existing LLM-based approaches rely on reasoning chains or self-improvement, which suffer from limited creativity and interpretability. To address these bottlenecks, we develop a novel LLM-based humor generation mechanism based on a fundamental humor theory, GTVH. To produce funny and script-opposite captions, we introduce a humor-theory-driven multi-role LLM collaboration framework augmented with humor retrieval (HOMER). The framework consists of three LLM-based roles: (1) conflicting-script extractor that grounds humor in key script oppositions, forming the basis of caption generation; (2) retrieval-augmented hierarchical imaginator that identifies key humor targets and expands the creative space of them through diverse associations structured as imagination trees; and (3) caption generator that produces funny and diverse captions conditioned on the obtained knowledge. Extensive experiments on two New Yorker Cartoon benchmarking datasets show that HOMER outperforms state-of-the-art baselines and powerful LLM reasoning strategies on multi-modal humor captioning.
- Abstract(参考訳): ユーモア(英: Humor)は、日常生活において一般的に用いられ、複雑な人間の言語である。
特にマルチモーダルシナリオでは、画像の面白いキャプション生成であり、視覚的な理解、ユーモアの推論、創造的な想像力などを必要とする。
既存のLCMベースのアプローチは、限定的な創造性と解釈可能性に苦しむ推論チェーンや自己改善に依存している。
これらのボトルネックに対処するため,本研究では,基本的ユーモア理論であるGTVHに基づく新しいLCMベースのユーモア生成機構を開発する。
本稿では,ユーモア検索(HOMER)を付加したユーモア理論駆動型マルチロールLLM協調フレームワークを提案する。
本フレームワークは,(1)キースクリプトの反対にユーモラスを基盤としてキャプション生成の基盤を形成するコンフリクト・スクリプト抽出器,(2)主要なユーモラスターゲットを識別し,想像木として構成された多様な協会を通じて創造空間を拡大する検索強化階層的イマジネータ,(3)得られた知識に基づいて面白く多様なキャプションを生成するキャプションジェネレータの3つで構成されている。
2つのNew Yorker Cartoonベンチマークデータセットの大規模な実験により、HOMERは、マルチモーダルユーモアのキャプションにおける最先端のベースラインと強力なLCM推論戦略より優れていることが示された。
関連論文リスト
- Sketch-in-Latents: Eliciting Unified Reasoning in MLLMs [53.57402214935238]
Sketch-in-Latentsは、統一マルチモーダル推論のための新しいパラダイムである。
連続的な視覚的な埋め込みを生成し、視覚的な思考として潜在スケッチトークンと呼ばれる。
視覚中心のタスクにおいて優れた性能を発揮し、多様な汎用マルチモーダルベンチマークへの強力な一般化を示す。
論文 参考訳(メタデータ) (2025-12-18T14:29:41Z) - HUMORCHAIN: Theory-Guided Multi-Stage Reasoning for Interpretable Multimodal Humor Generation [13.49193658655368]
噂は、創造的な人間の活動と社会的結びつきのメカニズムの両方として、AI生成において長年大きな課題を提起してきた。
理論誘導型多段階推論フレームワークHUMORCHAINを提案する。
視覚的意味解析、ユーモアと心理学に基づく推論、そしてユーモア評価のための微調整された識別器を統合している。
論文 参考訳(メタデータ) (2025-11-21T09:52:46Z) - V-HUB: A Visual-Centric Humor Understanding Benchmark for Video LLMs [72.59885036868499]
v-HUBは視覚中心のビデオユーモア理解ベンチマークである。
各ビデオクリップは、キャプション、説明、説明を含むリッチなアノテーションとペアリングされる。
我々は,特殊なビデオLLMから音声処理が可能な汎用OmniLLMまで,MLLMの多様なセットを評価する。
論文 参考訳(メタデータ) (2025-09-30T04:33:52Z) - Which LLMs Get the Joke? Probing Non-STEM Reasoning Abilities with HumorBench [16.929265302194782]
HumorBenchは、漫画のキャプションで洗練されたユーモアを推論し説明するための、大きな言語モデル(LLM)の能力を評価するために設計されたベンチマークである。
LLMは、ジョーク要素を特定する際のユーモアと能力に関する説明に基づいて評価される。
論文 参考訳(メタデータ) (2025-07-29T03:44:43Z) - A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models [100.16387798660833]
オオギリゲーム(オオギリゲーム)は、ユーモアと連想的思考を必要とする創造的な仕事である。
LoTbenchはインタラクティブで因果性を考慮した評価フレームワークである。
その結果、ほとんどのLLMは制約された創造性を示すが、LLMと人間の間の性能格差は克服できないことがわかった。
論文 参考訳(メタデータ) (2025-01-25T09:11:15Z) - Text Is Not All You Need: Multimodal Prompting Helps LLMs Understand Humor [0.0]
ユーモアはしばしば多モーダルであり、意味を伝えるための音声的曖昧さ、リズム、タイミングに依存している。
そこで本研究では,TTSシステムを用いて生成したジョークのテキストと音声形式の両方をLLMで表現する。
論文 参考訳(メタデータ) (2024-12-01T06:49:31Z) - Innovative Thinking, Infinite Humor: Humor Research of Large Language Models through Structured Thought Leaps [34.35304020094762]
ヒューモアは人間の言葉のニュアンスな側面であり、その理解と生成の課題を提示している。
創造的思考における知識グラフの広さのため、マルチホップ推論は困難である。
ユーモア推論タスクであるLoLについて,より堅牢なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T10:50:16Z) - SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen
LLMs [124.29233620842462]
画像やビデオなどの非言語的モダリティを含む理解タスクと生成タスクを,凍結したLLMで実現するためのSPAEを導入する。
結果として得られる語彙トークンは、意味的意味と視覚的再構成に必要な細部の両方をキャプチャする。
提案手法は,凍結したLCMが画像理解タスクの最先端性能を25%以上越えながら,画像コンテンツを生成できるようにする試みとして,初めて成功した試みである。
論文 参考訳(メタデータ) (2023-06-30T17:59:07Z) - DeHumor: Visual Analytics for Decomposing Humor [36.300283476950796]
公言におけるユーモラスな行動を分析する視覚システムであるDeHumorを開発した。
それぞれの具体例の構成要素を直感的に明らかにするために、DeHumorはユーモラスな動画をマルチモーダルな特徴に分解する。
DeHumorはユーモアのユーモアの例として、さまざまなビルディングブロックをハイライトすることができる。
論文 参考訳(メタデータ) (2021-07-18T04:01:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。