論文の概要: "I See What You Did There": Can Large Vision-Language Models Understand Multimodal Puns?
- arxiv url: http://arxiv.org/abs/2604.05930v1
- Date: Tue, 07 Apr 2026 14:31:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.879647
- Title: "I See What You Did There": Can Large Vision-Language Models Understand Multimodal Puns?
- Title(参考訳): 大型ビジョンランゲージモデルはマルチモーダル・プンを理解できるか?
- Authors: Naen Xu, Jiayi Sheng, Changjiang Li, Chunyi Zhou, Yuyuan Li, Tianyu Du, Jun Wang, Zhihui Fu, Jinbao Li, Shouling Ji,
- Abstract要約: パンは、ユーモアを生み出すためにポリセミーと音声の類似性を利用する、修辞的な言葉プレイの一般的な形式である。
視覚言語モデルは多モーダルな理解と生成に広く用いられているが、その理解能力は体系的に研究されていない。
我々は,多種多様な句からなるデータセットであるMultiPunを紹介した。
われわれの評価によると、ほとんどのモデルでは、本物の句をこれらの散らばり物と区別するのに苦労している。
- 参考スコア(独自算出の注目度): 52.182269580349605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Puns are a common form of rhetorical wordplay that exploits polysemy and phonetic similarity to create humor. In multimodal puns, visual and textual elements synergize to ground the literal sense and evoke the figurative meaning simultaneously. Although Vision-Language Models (VLMs) are widely used in multimodal understanding and generation, their ability to understand puns has not been systematically studied due to a scarcity of rigorous benchmarks. To address this, we first propose a multimodal pun generation pipeline. We then introduce MultiPun, a dataset comprising diverse types of puns alongside adversarial non-pun distractors. Our evaluation reveals that most models struggle to distinguish genuine puns from these distractors. Moreover, we propose both prompt-level and model-level strategies to enhance pun comprehension, with an average improvement of 16.5% in F1 scores. Our findings provide valuable insights for developing future VLMs that master the subtleties of human-like humor via cross-modal reasoning.
- Abstract(参考訳): パンは、ユーモアを生み出すためにポリセミーと音声の類似性を利用する、修辞的な言葉プレイの一般的な形式である。
マルチモーダルの句において、視覚的要素とテキスト的要素は、リテラル感覚を接地し、同時に比喩的意味を誘発する。
VLM(Vision-Language Models)はマルチモーダルな理解と生成に広く用いられているが、厳密なベンチマークが不足しているため、その理解能力は体系的に研究されていない。
そこで我々はまず,マルチモーダル・パント生成パイプラインを提案する。
次に,MultiPunを紹介した。
われわれの評価によると、ほとんどのモデルでは、本物の句をこれらの散らばり物と区別するのに苦労している。
さらに,F1スコアの平均値が16.5%向上し,句理解を高めるためのプロンプトレベル戦略とモデルレベル戦略の両方を提案する。
本研究は,人間のようなユーモアの微妙さをクロスモーダル推論によって習得する,将来的なVLMの開発に有用な知見を提供する。
関連論文リスト
- Reasoning Beyond Literal: Cross-style Multimodal Reasoning for Figurative Language Understanding [16.589552325416015]
視覚言語モデル(VLM)は、リテラルマルチモーダルタスクにおいて強力な推論能力を示している。
皮肉、ユーモア、比喩など 比喩的な言語は 依然として重要な課題です
本稿では,効率的なマルチモーダル推論モデルを開発するための3段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-23T22:01:39Z) - Pun Unintended: LLMs and the Illusion of Humor Understanding [50.29407048003165]
パン(Puns)は、ポリセミーと音声の類似性を利用するユーモラスな言葉遊びの一種である。
我々のコントリビューションには、包括的およびニュアンス付きパント検出ベンチマーク、最近のLLMにおける人的評価、これらのモデルが処理パントで直面する堅牢性課題の分析が含まれている。
論文 参考訳(メタデータ) (2025-09-15T17:22:30Z) - Can visual language models resolve textual ambiguity with visual cues? Let visual puns tell you! [14.84123301554462]
語彙的曖昧さの解消におけるマルチモーダル入力の影響を評価するための新しいベンチマークUNPIEを提案する。
私たちのデータセットには1,000個の句が含まれており、それぞれに両方の意味を説明する画像が添付されています。
その結果,様々なソクラティック・モデルとビジュアル・ランゲージ・モデルにより,視覚的コンテキストが与えられた場合に,テキストのみのモデルよりも改善されることが示された。
論文 参考訳(メタデータ) (2024-10-01T19:32:57Z) - MMoE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction Experts [92.76662894585809]
MMOE(Multimodal Mixtures of Experts)と呼ばれるマルチモーダルモデルの拡張手法を導入する。
MMoEは様々な種類のモデルに適用でき、改善できる。
論文 参考訳(メタデータ) (2023-11-16T05:31:21Z) - "The Boating Store Had Its Best Sail Ever": Pronunciation-attentive
Contextualized Pun Recognition [80.59427655743092]
そこで我々は,ヒトのユーモアを知覚するために,発音適応型文脈パウン認識(PCPR)を提案する。
PCPRは、周囲の文脈とその対応する音韻記号の関連を捉えることにより、文中の各単語の文脈化された表現を導出する。
その結果,提案手法はパント検出や位置情報タスクにおいて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-04-29T20:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。