論文の概要: MemeReaCon: Probing Contextual Meme Understanding in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.17433v2
- Date: Wed, 04 Jun 2025 08:55:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 16:24:49.030208
- Title: MemeReaCon: Probing Contextual Meme Understanding in Large Vision-Language Models
- Title(参考訳): MemeReaCon: 大規模視覚言語モデルにおける文脈的ミーム理解の提案
- Authors: Zhengyi Zhao, Shubo Zhang, Yuxi Zhang, Yanxi Zhao, Yifan Zhang, Zezhong Wang, Huimin Wang, Yutian Zhao, Bin Liang, Yefeng Zheng, Binyang Li, Kam-Fai Wong, Xian Wu,
- Abstract要約: 我々は,LVLM(Large Vision Language Models)がミームを本来の文脈でどのように理解するかを評価するために設計された,新しいベンチマークであるMemeReaConを紹介する。
私たちは5つのRedditコミュニティからミームを収集し、各ミームの画像、ポストテキスト、ユーザーコメントを一緒に保持しました。
モデルは文脈において重要な情報を解釈できないか、あるいはコミュニケーション目的を見越しながら視覚的詳細に過度に焦点を合わせるかのどちらかです。
- 参考スコア(独自算出の注目度): 50.2355423914562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Memes have emerged as a popular form of multimodal online communication, where their interpretation heavily depends on the specific context in which they appear. Current approaches predominantly focus on isolated meme analysis, either for harmful content detection or standalone interpretation, overlooking a fundamental challenge: the same meme can express different intents depending on its conversational context. This oversight creates an evaluation gap: although humans intuitively recognize how context shapes meme interpretation, Large Vision Language Models (LVLMs) can hardly understand context-dependent meme intent. To address this critical limitation, we introduce MemeReaCon, a novel benchmark specifically designed to evaluate how LVLMs understand memes in their original context. We collected memes from five different Reddit communities, keeping each meme's image, the post text, and user comments together. We carefully labeled how the text and meme work together, what the poster intended, how the meme is structured, and how the community responded. Our tests with leading LVLMs show a clear weakness: models either fail to interpret critical information in the contexts, or overly focus on visual details while overlooking communicative purpose. MemeReaCon thus serves both as a diagnostic tool exposing current limitations and as a challenging benchmark to drive development toward more sophisticated LVLMs of the context-aware understanding.
- Abstract(参考訳): ミームはマルチモーダルなオンラインコミュニケーションの一般的な形態として現れており、その解釈はそれらが現れる特定の文脈に大きく依存している。
現在のアプローチは、主に、有害なコンテンツ検出またはスタンドアロンの解釈のために、分離されたミーム分析に焦点を当てている。
人間は文脈がどのようにミーム解釈を形成するかを直感的に認識するが、LVLM(Large Vision Language Models)は文脈依存ミーム意図をほとんど理解できない。
この限界に対処するために,LVLMがミームを元の文脈でどのように理解するかを評価するために設計された,新しいベンチマークであるMemeReaConを紹介する。
私たちは5つのRedditコミュニティからミームを収集し、各ミームの画像、ポストテキスト、ユーザーコメントを一緒に保持しました。
テキストとミームの連携方法、ポスターの意図した内容、ミームの構造、コミュニティの反応について慎重にラベル付けしました。
モデルは文脈において重要な情報を解釈できないか、あるいはコミュニケーション目的を見越しながら視覚的詳細に過度に焦点を合わせるかのどちらかです。
したがってMemeReaConは、現在の制限を露呈する診断ツールと、コンテキスト認識理解のより洗練されたLVLMに向けた開発を促進するための挑戦的なベンチマークの両方として機能する。
関連論文リスト
- Large Vision-Language Models for Knowledge-Grounded Data Annotation of Memes [5.243460995467895]
本研究は,50種類のミームテンプレートを中心とした33,000以上のミームからなる大規模データセットであるClassic Memes-50-templates (CM50)を紹介する。
また,大規模な視覚言語モデルを利用して,高品質な画像キャプション,ミームキャプション,文芸機器ラベルを自動生成するアノテーションパイプラインを提案する。
論文 参考訳(メタデータ) (2025-01-23T17:18:30Z) - XMeCap: Meme Caption Generation with Sub-Image Adaptability [53.2509590113364]
社会的な意味や文化的な詳細に深く根ざした噂は、機械にとってユニークな挑戦である。
我々は、教師付き微調整と強化学習を採用するtextscXMeCapフレームワークを紹介した。
textscXMeCapは、シングルイメージのミームの平均評価スコアが75.85で、マルチイメージのミームは66.32で、それぞれ3.71%と4.82%で最高のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-07-24T10:51:46Z) - Meme-ingful Analysis: Enhanced Understanding of Cyberbullying in Memes
Through Multimodal Explanations [48.82168723932981]
Em MultiBully-Exは、コード混在型サイバーいじめミームからマルチモーダルな説明を行うための最初のベンチマークデータセットである。
ミームの視覚的およびテキスト的説明のために,コントラスト言語-画像事前学習 (CLIP) アプローチが提案されている。
論文 参考訳(メタデータ) (2024-01-18T11:24:30Z) - A Template Is All You Meme [76.03172165923058]
5,200以上のmemeテンプレート、それらに関する情報、および54,000のテンプレートインスタンスの例で構成された知識ベースを作成します。
ミームテンプレートのセマンティック信号を調べるために,データセット中のミームと知識ベースに含まれるベーステンプレートを距離ベースで検索することでマッチングできることを示す。
メメテンプレートの検証により,検討対象のデータセット毎の最先端性能が得られ,テンプレート性に基づく解析方法が確立された。
論文 参考訳(メタデータ) (2023-11-11T19:38:14Z) - Mapping Memes to Words for Multimodal Hateful Meme Classification [26.101116761577796]
一部のミームは悪意があり、ヘイトフルなコンテンツを宣伝し、差別を永続させる。
マルチモーダルヘイトフルミーム分類のためのISSUESという新しい手法を提案する。
提案手法は,Hateful Memes Challenge と HarMeme データセットの最先端化を実現する。
論文 参考訳(メタデータ) (2023-10-12T14:38:52Z) - MemeCap: A Dataset for Captioning and Interpreting Memes [11.188548484391978]
我々はミームキャプションのタスクを提示し、新しいデータセットMemeCapをリリースする。
我々のデータセットには、6.3Kミームと、ミーム、ミームキャプション、リテラルイメージキャプション、ビジュアルメタファを含む投稿のタイトルが含まれています。
論文 参考訳(メタデータ) (2023-05-23T05:41:18Z) - Memes in the Wild: Assessing the Generalizability of the Hateful Memes
Challenge Dataset [47.65948529524281]
Pinterestからヘイトフルで非ヘイトフルなミームを収集して、Facebookデータセットで事前トレーニングされたモデルで、サンプル外のパフォーマンスを評価します。
1) キャプションをOCRで抽出しなければならない,2) ミームは従来のミームよりも多様であり, 会話のスクリーンショットやテキストをプレーンな背景に表示する,という2つの重要な側面がある。
論文 参考訳(メタデータ) (2021-07-09T09:04:05Z) - Multimodal Learning for Hateful Memes Detection [6.6881085567421605]
本稿では,画像キャプション処理をミーム検出プロセスに組み込む新しい手法を提案する。
本モデルは,Hateful Memes Detection Challengeにおける有望な結果を得る。
論文 参考訳(メタデータ) (2020-11-25T16:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。