論文の概要: Learning to Think Like a Cartoon Captionist: Incongruity-Resolution Supervision for Multimodal Humor Understanding
- arxiv url: http://arxiv.org/abs/2604.15210v1
- Date: Thu, 16 Apr 2026 16:41:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:32.007782
- Title: Learning to Think Like a Cartoon Captionist: Incongruity-Resolution Supervision for Multimodal Humor Understanding
- Title(参考訳): カートゥーン・キャピタリストのように考えること:マルチモーダル・ユーモア理解のためのインコングルティ・リゾリューション・スーパービジョン
- Authors: Hatice Merve Vural, Doga Kukul, Ege Erdem Ozlu, Demir Ekin Arikan, Bob Mankoff, Erkut Erdem, Aykut Erdem,
- Abstract要約: ユーモア理解を3つの構成要素に分解するフレームワークであるIRSを紹介する。
IRSは、構造化されたトレースを通して中間的推論プロセスを監督する。
この結果から,単独でスケールするのではなく,推論中心のタスクにおいて,推論構造を監視できることが示唆された。
- 参考スコア(独自算出の注目度): 13.744630706260743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humor is one of the few cognitive tasks where getting the reasoning right matters as much as getting the answer right. While recent work evaluates humor understanding on benchmarks such as the New Yorker Cartoon Caption Contest (NYCC), it largely treats it as black-box prediction, overlooking the structured reasoning processes underlying humor comprehension. We introduce IRS (Incongruity-Resolution Supervision), a framework that decomposes humor understanding into three components: incongruity modeling, which identifies mismatches in the visual scene; resolution modeling, which constructs coherent reinterpretations of these mismatches; and preference alignment, which evaluates candidate interpretations under human judgments. Grounded in incongruity-resolution theory and expert captionist practice, IRS supervises intermediate reasoning process through structured traces that make the path from visual perception to humorous interpretation explicit and learnable. Across 7B, 32B, and 72B models on NYCC, IRS outperforms strong open and closed multimodal baselines across caption matching and ranking tasks, with our largest model approaching expert-level performance on ranking. Zero-shot transfer to external benchmarks shows that IRS learns generalizable reasoning patterns. Our results suggest that supervising reasoning structure, rather than scale alone, is key for reasoning-centric tasks.
- Abstract(参考訳): Humorは、推論を正しくするだけでなく、答えを正しくする上でも重要な、数少ない認知的タスクの1つだ。
最近の研究は、New Yorker Cartoon Caption Contest (NYCC)のようなベンチマークでのユーモアの理解を評価しているが、主にブラックボックスの予測として扱い、ユーモアの理解の基盤となる構造的推論プロセスを見渡している。
IRS(Incongruity-Resolution Supervision)は、ユーモラスな理解を3つの構成要素に分解するフレームワークである。不一致モデリング(incongruity modeling)は、視覚シーンにおけるミスマッチを識別する。
不整合分解理論と専門家キャプタリストの実践に基づくIRSは、視覚的な知覚からユーモラスな解釈への道筋を明確化し、学習可能な構造的トレースを通じて中間的推論プロセスを監督する。
NYCCの7B、32B、72Bモデル全体で、IRSはキャプションマッチングとランキングタスクで、オープンでクローズドなマルチモーダルベースラインよりも優れています。
外部ベンチマークへのゼロショット転送は、IRSが一般化可能な推論パターンを学ぶことを示している。
この結果から,単独でスケールするのではなく,推論中心のタスクにおいて,推論構造を監視できることが示唆された。
関連論文リスト
- Think Visually, Reason Textually: Vision-Language Synergy in ARC [94.15522924153264]
ARC-AGIは、概念ルールの誘導と新しいタスクへの転送のための厳格なテストベッドである。
既存のほとんどの手法は、ARC-AGIを純粋にテキストによる推論タスクとして扱い、人間が視覚的抽象化に強く依存しているという事実を見落としている。
VLSR(Vision-Language Synergy Reasoning)とMSSC(Modality-Switch Self-Correction)の2つの相乗的戦略を導入する。
本研究は,視覚的抽象と言語的推論を一体化させることが,汎用的な人間的な知性を実現するための重要なステップであることを示唆している。
論文 参考訳(メタデータ) (2025-11-19T18:59:04Z) - BLINK-Twice: You see, but do you observe? A Reasoning Benchmark on Visual Perception [67.89135437537179]
我々は視覚中心の推論ベンチマークであるBLINK-Twiceを紹介した。
外部の知識に頼るのではなく、私たちのタスクは視覚的コンテンツのみから推論するモデルを必要とします。
事前の知覚ベンチマークと比較すると、浅い知覚を超越し、きめ細かい観察と分析的推論を必要とする。
論文 参考訳(メタデータ) (2025-10-10T13:14:13Z) - Selection, Reflection and Self-Refinement: Revisit Reasoning Tasks via a Causal Lens [19.316594303998667]
推論タスクは、機械学習モデルの能力を評価するための厳格なベンチマークとみなされてきた。
我々は、因果的視点から推論タスクを再考し、潜在空間におけるそれらの振る舞いを理解する。
SR$2$と呼ばれるフレームワークを導入し、推定された潜在変数を選択機構にフィードバックとして組み込む。
論文 参考訳(メタデータ) (2025-10-09T13:45:31Z) - Which LLMs Get the Joke? Probing Non-STEM Reasoning Abilities with HumorBench [16.929265302194782]
HumorBenchは、漫画のキャプションで洗練されたユーモアを推論し説明するための、大きな言語モデル(LLM)の能力を評価するために設計されたベンチマークである。
LLMは、ジョーク要素を特定する際のユーモアと能力に関する説明に基づいて評価される。
論文 参考訳(メタデータ) (2025-07-29T03:44:43Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [58.32070787537946]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - How do Transformers Learn Implicit Reasoning? [67.02072851088637]
制御されたシンボリック環境下でトランスフォーマーをスクラッチからトレーニングすることで、暗黙のマルチホップ推論がどのように現れるかを研究する。
原子三重項によるトレーニングは必要ではなく学習を加速し,第2ホップの一般化は特定の構成構造へのクエリレベル露出に依存する。
論文 参考訳(メタデータ) (2025-05-29T17:02:49Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - Reflective Instruction Tuning: Mitigating Hallucinations in Large Vision-Language Models [36.119299938503936]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて有望な性能を示す。
幻覚に敏感であり、視覚内容や指示と不一致な出力を生成する。
本稿では,理科学習を視覚的指導調律に統合した反射的指導調律を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:32:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。