論文の概要: MER-Bench: A Comprehensive Benchmark for Multimodal Meme Reappraisal
- arxiv url: http://arxiv.org/abs/2603.15020v1
- Date: Mon, 16 Mar 2026 09:23:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:57.980328
- Title: MER-Bench: A Comprehensive Benchmark for Multimodal Meme Reappraisal
- Title(参考訳): MER-Bench: マルチモーダルミーム再評価のための総合ベンチマーク
- Authors: Yiqi Nie, Fei Wang, Junjie Chen, Kun Li, Yudi Cai, Dan Guo, Chenglong Li, Meng Wang,
- Abstract要約: 本稿では, 否定的にフレーム化されたミームを構成的なミームに変換することを目的とした, 新たなマルチモーダル生成タスクであるMeme Reappraisalを紹介する。
我々は,マルチモーダルアノテーションを微粒化した実世界のミームのベンチマークであるMER-Benchを構築した。
本稿では,MLLM-as-a-Judgeパラダイムに基づく構造化評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 33.12983446524772
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Memes represent a tightly coupled, multimodal form of social expression, in which visual context and overlaid text jointly convey nuanced affect and commentary. Inspired by cognitive reappraisal in psychology, we introduce Meme Reappraisal, a novel multimodal generation task that aims to transform negatively framed memes into constructive ones while preserving their underlying scenario, entities, and structural layout. Unlike prior works on meme understanding or generation, Meme Reappraisal requires emotion-controllable, structure-preserving multimodal transformation under multiple semantic and stylistic constraints. To support this task, we construct MER-Bench, a benchmark of real-world memes with fine-grained multimodal annotations, including source and target emotions, positively rewritten meme text, visual editing specifications, and taxonomy labels covering visual type, sentiment polarity, and layout structure. We further propose a structured evaluation framework based on a multimodal large language model (MLLM)-as-a-Judge paradigm, decomposing performance into modality-level generation quality, affect controllability, structural fidelity, and global affective alignment. Extensive experiments across representative image-editing and multimodal-generation systems reveal substantial gaps in satisfying the constraints of structural preservation, semantic consistency, and affective transformation. We believe MER-Bench establishes a foundation for research on controllable meme editing and emotion-aware multimodal generation. Our code is available at: https://github.com/one-seven17/MER-Bench.
- Abstract(参考訳): ミームは、社会的表現の密結合した多モーダルな形態を表しており、視覚的文脈とオーバーレイドテキストは、ニュアンスされた感情と注釈を共同で伝達する。
心理学における認知的再評価に着想を得て, 基礎となるシナリオ, 実体, 構造的レイアウトを保ちながら, ネガティブなフレーム化されたミームを構成的なタスクに変換することを目的とした, 新たなマルチモーダル生成タスクであるMeme Reappraisalを紹介した。
ミーム理解や生成に関する以前の研究とは異なり、Meme Reappraisalは複数のセマンティックおよびスタイリスティックな制約の下で、感情制御可能で構造を保存するマルチモーダル変換を必要とする。
このタスクを支援するために、MER-Benchは、ソースとターゲットの感情、肯定的に書き直されたミームテキスト、ビジュアル編集仕様、視覚タイプ、感情極性、レイアウト構造を含む、微粒なマルチモーダルアノテーションを備えた実世界のミームのベンチマークを構築する。
さらに,マルチモーダル言語モデル(MLLM)-as-a-Judgeパラダイムに基づく構造化評価フレームワークを提案する。
代表的な画像編集システムとマルチモーダル世代システムにまたがる広範囲な実験は、構造保存、意味的一貫性、情緒的変換の制約を満たす上で、かなりのギャップがあることを明らかにしている。
我々は、MER-Benchが制御可能なミーム編集と感情認識型マルチモーダル生成の研究基盤を確立していると信じている。
私たちのコードは、https://github.com/one-seven17/MER-Bench.comで利用可能です。
関連論文リスト
- Can Thinking Models Think to Detect Hateful Memes? [7.77199523320035]
思考に基づくマルチモーダル大言語モデル(MLLM)は近年、視覚言語による理解が進んでいる。
思考に基づくMLLMにおける推論を改善する強化学習に基づくポストトレーニングフレームワークを提案する。
提案手法は,最先端性能を実現し,精度とF1を約1%,説明品質を約3%向上させる。
論文 参考訳(メタデータ) (2026-03-01T18:41:52Z) - MemeLens: Multilingual Multitask VLMs for Memes [45.8232386994625]
ミーム理解のための多言語・説明強調視覚言語モデル(VLM)を提案する。
私たちは、38の公開ミームデータセット、データセット固有のラベルを、害、ターゲット、具体的/実用的意図、影響にまたがる20ドルのタスクの共有分類に集約します。
この結果から,ロバストなミーム理解には多モーダルな訓練が必要であり,セマンティックなカテゴリ間でかなりの差異があり,モデルが統一された環境で訓練されるのではなく,個々のデータセットに微調整された場合,過度な特殊化に敏感であることが示唆された。
論文 参考訳(メタデータ) (2026-01-18T19:01:03Z) - ConsistCompose: Unified Multimodal Layout Control for Image Composition [56.909072845166264]
レイアウト座標を直接言語プロンプトに埋め込む統合フレームワークであるConsistComposeを提案する。
本研究では,ConsistComposeがレイアウト制御ベースラインよりも空間精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-11-23T08:14:53Z) - UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - Hierarchical Banzhaf Interaction for General Video-Language Representation Learning [60.44337740854767]
マルチモーダル表現学習は人工知能領域において重要な役割を担っている。
本稿では,多変量協調ゲーム理論を用いて,ビデオテキストをゲームプレイヤーとしてモデル化する手法を提案する。
元の構造をフレキシブルなエンコーダ・デコーダ・フレームワークに拡張し、モデルが様々な下流タスクに適応できるようにする。
論文 参考訳(メタデータ) (2024-12-30T14:09:15Z) - HateSieve: A Contrastive Learning Framework for Detecting and Segmenting Hateful Content in Multimodal Memes [8.97062933976566]
textscHateSieveは、ミーム内の憎しみのある要素の検出とセグメンテーションを強化するために設計されたフレームワークである。
textscHateSieveは、セマンティックなペアのミームを生成するContrastive Meme Generatorを特徴としている。
Hateful Memeでの実証実験では、textscHateSieveはトレーニング可能なパラメータが少なく、既存のLMMを超えるだけでなく、ヘイトフルコンテンツを正確に識別し、分離するための堅牢なメカニズムを提供する。
論文 参考訳(メタデータ) (2024-08-11T14:56:06Z) - XMeCap: Meme Caption Generation with Sub-Image Adaptability [53.2509590113364]
社会的な意味や文化的な詳細に深く根ざした噂は、機械にとってユニークな挑戦である。
我々は、教師付き微調整と強化学習を採用するtextscXMeCapフレームワークを紹介した。
textscXMeCapは、シングルイメージのミームの平均評価スコアが75.85、マルチイメージのミームが66.32、それぞれ最高のベースラインが6.75%と8.56%を上回っている。
論文 参考訳(メタデータ) (2024-07-24T10:51:46Z) - A Multimodal Framework for the Detection of Hateful Memes [16.7604156703965]
我々は憎しみのあるミームを検出するフレームワークの開発を目指している。
マルチモーダルとアンサンブル学習を促進するために,比較例のアップサンプリングの有効性を示す。
私たちの最良のアプローチは、UNITERベースのモデルのアンサンブルで構成され、80.53のAUROCスコアを達成し、Facebookが主催する2020 Hateful Memes Challengeのフェーズ2で4位になります。
論文 参考訳(メタデータ) (2020-12-23T18:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。