論文の概要: HUMORCHAIN: Theory-Guided Multi-Stage Reasoning for Interpretable Multimodal Humor Generation
- arxiv url: http://arxiv.org/abs/2511.21732v1
- Date: Fri, 21 Nov 2025 09:52:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.183601
- Title: HUMORCHAIN: Theory-Guided Multi-Stage Reasoning for Interpretable Multimodal Humor Generation
- Title(参考訳): HUMORCHAIN:解釈可能なマルチモーダル波動生成のための理論誘導型マルチステージ推論
- Authors: Jiajun Zhang, Shijia Luo, Ruikang Zhang, Qi Su,
- Abstract要約: 噂は、創造的な人間の活動と社会的結びつきのメカニズムの両方として、AI生成において長年大きな課題を提起してきた。
理論誘導型多段階推論フレームワークHUMORCHAINを提案する。
視覚的意味解析、ユーモアと心理学に基づく推論、そしてユーモア評価のための微調整された識別器を統合している。
- 参考スコア(独自算出の注目度): 13.49193658655368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humor, as both a creative human activity and a social binding mechanism, has long posed a major challenge for AI generation. Although producing humor requires complex cognitive reasoning and social understanding, theories of humor suggest that it follows learnable patterns and structures, making it theoretically possible for generative models to acquire them implicitly. In recent years, multimodal humor has become a prevalent form of online communication, especially among Gen Z, highlighting the need for AI systems capable of integrating visual understanding with humorous language generation. However, existing data-driven approaches lack explicit modeling or theoretical grounding of humor, often producing literal descriptions that fail to capture its underlying cognitive mechanisms, resulting in the generated image descriptions that are fluent but lack genuine humor or cognitive depth. To address this limitation, we propose HUMORCHAIN (HUmor-guided Multi-step Orchestrated Reasoning Chain for Image Captioning), a theory-guided multi-stage reasoning framework. It integrates visual semantic parsing, humor- and psychology-based reasoning, and a fine-tuned discriminator for humor evaluation, forming an interpretable and controllable cognitive reasoning chain. To the best of our knowledge, this is the first work to explicitly embed cognitive structures from humor theories into multimodal humor generation, enabling a structured reasoning process from visual understanding to humor creation. Experiments on Meme-Image-No-Text, Oogiri-GO, and OxfordTVG-HIC datasets show that HUMORCHAIN outperforms state-of-the-art baselines in human humor preference, Elo/BT scores, and semantic diversity, demonstrating that theory-driven structured reasoning enables large language models to generate humor aligned with human perception.
- Abstract(参考訳): 噂は、創造的な人間の活動と社会的結びつきのメカニズムの両方として、AI生成において長年大きな課題を提起してきた。
ユーモアを生み出すには複雑な認知的推論と社会的理解が必要であるが、ユーモアの理論は学習可能なパターンや構造に従うことを示唆し、生成モデルが暗黙的にそれらを取得することは理論的に可能である。
近年、マルチモーダルなユーモアは、特にGen Zにおけるオンラインコミュニケーションの一般的な形態となり、ユーモアのある言語生成と視覚的理解を統合できるAIシステムの必要性を強調している。
しかし、既存のデータ駆動型アプローチでは、ユーモアの明示的なモデリングや理論的根拠が欠如しており、しばしば、その基盤となる認知メカニズムを捉えないリテラル記述を生成し、結果として、純粋なユーモアや認知深度が欠如している画像記述が生成される。
この制限に対処するため,理論誘導多段階推論フレームワークであるHUMORCHAIN(HUmor-guided Multi-step Orchestrated Reasoning Chain for Image Captioning)を提案する。
視覚的意味解析、ユーモアと心理学に基づく推論、そしてユーモア評価のための微調整された識別器を統合し、解釈可能で制御可能な認知的推論連鎖を形成する。
我々の知る限りでは、これはユーモア理論からの認知構造をマルチモーダルなユーモア生成に明示的に組み込む最初の試みであり、視覚的理解からユーモア生成まで構造化された推論プロセスを可能にする。
Meme-Image-No-Text、Oogiri-GO、OxfordTVG-HICデータセットの実験では、HUMORCHAINは人間のユーモア嗜好、Elo/BTスコア、セマンティック多様性において最先端のベースラインよりも優れており、理論駆動の構造化推論により、人間の知覚に合わせたユーモアを生み出すことができることを示した。
関連論文リスト
- Innovative Thinking, Infinite Humor: Humor Research of Large Language Models through Structured Thought Leaps [34.35304020094762]
ヒューモアは人間の言葉のニュアンスな側面であり、その理解と生成の課題を提示している。
創造的思考における知識グラフの広さのため、マルチホップ推論は困難である。
ユーモア推論タスクであるLoLについて,より堅牢なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T10:50:16Z) - THInC: A Theory-Driven Framework for Computational Humor Detection [2.0960189135529212]
単一の包括的ユーモア理論についてはまだ合意がない。
ユーモアを検出するためのほとんどの計算手法は、既存のユーモア理論に基づいていない。
本稿では,ユーモア分類のための解釈可能な枠組みを作成することにより,この長期的ギャップを埋めることに寄与する。
論文 参考訳(メタデータ) (2024-09-02T13:09:26Z) - HumorDB: Can AI understand graphical humor? [10.207371106800187]
本稿では,AIシステムによる視覚的ユーモア理解の評価と向上を目的としたデータセットであるtextbfHumorDBを紹介する。
我々は,2次ユーモア分類,面白さ評価予測,ペアワイズユーモア比較という3つのタスクにおいて,人間,最先端の視覚モデル,および大きな視覚言語モデルを評価する。
その結果、現在のAIシステムと人間レベルのユーモア理解のギャップが明らかになった。
論文 参考訳(メタデータ) (2024-06-19T13:51:40Z) - From Word Models to World Models: Translating from Natural Language to
the Probabilistic Language of Thought [124.40905824051079]
言語インフォームド・シンキングのための計算フレームワークである「構成」を合理的に提案する。
我々は、自然言語から確率論的思考言語への文脈感応的なマッピングとして、言語の意味を定式化する。
LLMは、現実的に適切な言語的意味をキャプチャする文脈依存翻訳を生成することができることを示す。
認知的なモチベーションを持つシンボリックモジュールを統合するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2023-06-22T05:14:00Z) - Towards Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results [84.37263300062597]
風は人間の社会的行動、感情、認知の重要な要素である。
現在のユーモア検出法は、ステージ化されたデータのみに基づいており、「現実世界」の応用には不十分である。
約11時間の記録を含むPassau-Spontaneous Football Coach Humorデータセットを導入することで,この障害への対処に寄与する。
論文 参考訳(メタデータ) (2022-09-28T17:36:47Z) - Machine Common Sense [77.34726150561087]
機械の常識は、人工知能(AI)において広範で潜在的に無拘束な問題のままである
本稿では、対人インタラクションのようなドメインに焦点を当てたコモンセンス推論のモデル化の側面について論じる。
論文 参考訳(メタデータ) (2020-06-15T13:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。