論文の概要: MemeArena: Automating Context-Aware Unbiased Evaluation of Harmfulness Understanding for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2510.27196v1
- Date: Fri, 31 Oct 2025 05:39:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.994515
- Title: MemeArena: Automating Context-Aware Unbiased Evaluation of Harmfulness Understanding for Multimodal Large Language Models
- Title(参考訳): MemeArena: マルチモーダル大規模言語モデルに対するハームフルネス理解の文脈認識不偏性評価の自動化
- Authors: Zixin Chen, Hongzhan Lin, Kaixin Li, Ziyang Luo, Yayue Deng, Jing Ma,
- Abstract要約: ソーシャルメディア上でのミームの拡散は、マルチモーダルな有害性を理解するために、マルチモーダルな大規模言語モデル(mLLM)の能力を必要とする。
既存の評価手法は、主に二分分類タスクに対するmLLMsの検出精度に重点を置いている。
マルチモーダル有害性に対するmLLMsの理解に対する文脈認識および偏見のない評価を提供するエージェントベースのアリーナ型評価フレームワークであるMemeArenaを提案する。
- 参考スコア(独自算出の注目度): 25.461441362074257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of memes on social media necessitates the capabilities of multimodal Large Language Models (mLLMs) to effectively understand multimodal harmfulness. Existing evaluation approaches predominantly focus on mLLMs' detection accuracy for binary classification tasks, which often fail to reflect the in-depth interpretive nuance of harmfulness across diverse contexts. In this paper, we propose MemeArena, an agent-based arena-style evaluation framework that provides a context-aware and unbiased assessment for mLLMs' understanding of multimodal harmfulness. Specifically, MemeArena simulates diverse interpretive contexts to formulate evaluation tasks that elicit perspective-specific analyses from mLLMs. By integrating varied viewpoints and reaching consensus among evaluators, it enables fair and unbiased comparisons of mLLMs' abilities to interpret multimodal harmfulness. Extensive experiments demonstrate that our framework effectively reduces the evaluation biases of judge agents, with judgment results closely aligning with human preferences, offering valuable insights into reliable and comprehensive mLLM evaluations in multimodal harmfulness understanding. Our code and data are publicly available at https://github.com/Lbotirx/MemeArena.
- Abstract(参考訳): ソーシャルメディア上でのミームの拡散は、マルチモーダルな有害性を効果的に理解するために、マルチモーダルなLarge Language Models (mLLMs) の能力を必要とする。
既存の評価手法は、主に二分分類タスクに対するmLLMsの検出精度に重点を置いているが、これは多種多様な文脈における有害性の深い解釈ニュアンスを反映しないことが多い。
本稿では,マルチモーダル有害性に対するmLLMsの理解に対する文脈認識と非バイアス評価を提供するエージェントベースのアリーナ型評価フレームワークであるMemeArenaを提案する。
特に、MemeArenaは、様々な解釈コンテキストをシミュレートし、mLLMから視点特異的な分析を引き出す評価タスクを定式化する。
様々な視点を統合し、評価者の間で合意に達することにより、マルチモーダル有害性を解釈するmLLMsの能力の公平かつ曖昧な比較を可能にする。
総合的な実験により, 審査員の評価バイアスを効果的に低減し, 判断結果が人間の嗜好と密接に一致し, マルチモーダル有害度理解における信頼性および総合的なmLLM評価に対する貴重な洞察を提供することができた。
私たちのコードとデータはhttps://github.com/Lbotirx/MemeArena.comで公開されています。
関連論文リスト
- AdamMeme: Adaptively Probe the Reasoning Capacity of Multimodal Large Language Models on Harmfulness [16.4111250168657]
マルチモーダル大言語モデル(mLLM)は、ミームの有害性を効果的に理解する必要がある。
有害なミーム理解に基づいてmLLMを評価するための既存のベンチマークは、静的データセットを用いた精度に基づくモデルに依存している。
我々は,mLLMsが有害なミームを解読する際の推論能力を適応的に探索する,フレキシブルでエージェントベースの評価フレームワークAdamMemeを提案する。
論文 参考訳(メタデータ) (2025-07-02T13:32:30Z) - Déjà Vu: Multilingual LLM Evaluation through the Lens of Machine Translation Evaluation [20.639904433330162]
多言語大言語モデル(mLLM)の生成能力と言語カバレッジは急速に進歩している。
しかし、mLLMの評価方法には、包括性、科学的厳密性、研究機関間の一貫した採用の欠如がある。
同様の課題に直面し、何十年もの間、透過的なレポーティング標準を開発してきた分野である、機械翻訳(MT)評価と平行関係を描いています。
我々はこれらの知見を,mLLM研究・開発のための実行可能なレコメンデーションのチェックリストに抽出する。
論文 参考訳(メタデータ) (2025-04-16T07:38:19Z) - Both Text and Images Leaked! A Systematic Analysis of Data Contamination in Multimodal LLM [53.05486269607166]
マルチモーダルな大言語モデル (MLLM) はベンチマーク間で大幅に性能が向上した。
マルチモーダルデータ複雑性とマルチフェーズトレーニングのため,既存のLLM検出手法はMLLMでは不十分である。
我々は分析フレームワークMM-Detectを用いてマルチモーダルデータの汚染を分析する。
論文 参考訳(メタデータ) (2024-11-06T10:44:15Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models [51.19622266249408]
MultiTrustはMLLMの信頼性に関する最初の総合的で統一されたベンチマークである。
我々のベンチマークでは、マルチモーダルリスクとクロスモーダルインパクトの両方に対処する厳格な評価戦略を採用している。
21の近代MLLMによる大規模な実験は、これまで調査されなかった信頼性の問題とリスクを明らかにしている。
論文 参考訳(メタデータ) (2024-06-11T08:38:13Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。