論文の概要: I Came, I Saw, I Explained: Benchmarking Multimodal LLMs on Figurative Meaning in Memes
- arxiv url: http://arxiv.org/abs/2603.23229v1
- Date: Tue, 24 Mar 2026 14:02:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.518384
- Title: I Came, I Saw, I Explained: Benchmarking Multimodal LLMs on Figurative Meaning in Memes
- Title(参考訳): I Came, I Saw, I Explained:Multimodal LLMs on Figurative Meaning in Memes
- Authors: Shijia Zhou, Saif M. Mohammad, Barbara Plank, Diego Frassinelli,
- Abstract要約: 本研究では,6種類の図形的意味を検出・説明する能力に基づいて,8種類の最先端生成型大言語モデル (MLLM) の評価を行った。
以上の結果から,すべてのモデルにおいて,そのような意味が存在しない場合でも,ミームと図形的意味を関連づけるバイアスが強いことが示唆された。
- 参考スコア(独自算出の注目度): 53.717874073948984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Internet memes represent a popular form of multimodal online communication and often use figurative elements to convey layered meaning through the combination of text and images. However, it remains largely unclear how multimodal large language models (MLLMs) combine and interpret visual and textual information to identify figurative meaning in memes. To address this gap, we evaluate eight state-of-the-art generative MLLMs across three datasets on their ability to detect and explain six types of figurative meaning. In addition, we conduct a human evaluation of the explanations generated by these MLLMs, assessing whether the provided reasoning supports the predicted label and whether it remains faithful to the original meme content. Our findings indicate that all models exhibit a strong bias to associate a meme with figurative meaning, even when no such meaning is present. Qualitative analysis further shows that correct predictions are not always accompanied by faithful explanations.
- Abstract(参考訳): インターネットミームは、マルチモーダルなオンラインコミュニケーションの一般的な形態を表し、しばしば、テキストと画像の組み合わせを通じて、階層化された意味を伝えるための図形要素を使用する。
しかし、マルチモーダルな大言語モデル(MLLM)が視覚情報とテキスト情報をどのように組み合わせて解釈し、ミームにおける比喩的意味を特定するのかは、明らかになっていない。
このギャップに対処するため、我々は、3つのデータセットにまたがる8つの最先端の生成MLLMを評価し、それらが6種類の比喩的意味を検知し、説明する能力に基づいて評価した。
さらに,これらのMLLMが生成した説明の人間による評価を行い,提案した推論が予測されたラベルを支持するか否か,本来のミーム内容に忠実であるかどうかを評価する。
以上の結果から,すべてのモデルにおいて,そのような意味が存在しない場合でも,ミームと図形的意味を関連づけるバイアスが強いことが示唆された。
定性的分析により、正しい予測は必ずしも忠実な説明を伴わないことが示された。
関連論文リスト
- MemeReaCon: Probing Contextual Meme Understanding in Large Vision-Language Models [50.2355423914562]
我々は,LVLM(Large Vision Language Models)がミームを本来の文脈でどのように理解するかを評価するために設計された,新しいベンチマークであるMemeReaConを紹介する。
私たちは5つのRedditコミュニティからミームを収集し、各ミームの画像、ポストテキスト、ユーザーコメントを一緒に保持しました。
モデルは文脈において重要な情報を解釈できないか、あるいはコミュニケーション目的を見越しながら視覚的詳細に過度に焦点を合わせるかのどちらかです。
論文 参考訳(メタデータ) (2025-05-23T03:27:23Z) - XMeCap: Meme Caption Generation with Sub-Image Adaptability [53.2509590113364]
社会的な意味や文化的な詳細に深く根ざした噂は、機械にとってユニークな挑戦である。
我々は、教師付き微調整と強化学習を採用するtextscXMeCapフレームワークを紹介した。
textscXMeCapは、シングルイメージのミームの平均評価スコアが75.85、マルチイメージのミームが66.32、それぞれ最高のベースラインが6.75%と8.56%を上回っている。
論文 参考訳(メタデータ) (2024-07-24T10:51:46Z) - Understanding Figurative Meaning through Explainable Visual Entailment [24.831452159672857]
本稿では,概念的意味理解問題を説明可能な視覚的含意タスクとしてフレーミングする新しいタスクを提案する。
我々は、6,027の画像、キャプション、ラベル、説明例を含む付随するデータセットV-FLUTEを構築した。
VLMはリテラルから比喩的意味への一般化に苦慮している。
論文 参考訳(メタデータ) (2024-05-02T17:07:25Z) - What do you MEME? Generating Explanations for Visual Semantic Role
Labelling in Memes [42.357272117919464]
ミームにおける視覚的意味的役割のラベル付けに関する説明を生成する新しいタスク-EXCLAIMを導入する。
この目的のために,3種類のエンティティに対する意味的役割の自然言語説明を提供する新しいデータセットであるExHVVをキュレートする。
また,EXCLAIMを最適に扱える新しいマルチモーダル・マルチタスク学習フレームワークであるLUMENを提案する。
論文 参考訳(メタデータ) (2022-12-01T18:21:36Z) - Do Images really do the Talking? Analysing the significance of Images in
Tamil Troll meme classification [0.16863755729554888]
我々は,ミームの分類における画像の視覚的特徴の重要性を探究する。
画像とテキストに基づいて,ミームをトロール・ノントロールのミームとして組み込もうとする。
論文 参考訳(メタデータ) (2021-08-09T09:04:42Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。