論文の概要: AdamMeme: Adaptively Probe the Reasoning Capacity of Multimodal Large Language Models on Harmfulness
- arxiv url: http://arxiv.org/abs/2507.01702v1
- Date: Wed, 02 Jul 2025 13:32:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.260878
- Title: AdamMeme: Adaptively Probe the Reasoning Capacity of Multimodal Large Language Models on Harmfulness
- Title(参考訳): AdamMeme: マルチモーダルな大規模言語モデルの推論能力が有害であることを適応的に証明する
- Authors: Zixin Chen, Hongzhan Lin, Kaixin Li, Ziyang Luo, Zhen Ye, Guang Chen, Zhiyong Huang, Jing Ma,
- Abstract要約: マルチモーダル大言語モデル(mLLM)は、ミームの有害性を効果的に理解する必要がある。
有害なミーム理解に基づいてmLLMを評価するための既存のベンチマークは、静的データセットを用いた精度に基づくモデルに依存している。
我々は,mLLMsが有害なミームを解読する際の推論能力を適応的に探索する,フレキシブルでエージェントベースの評価フレームワークAdamMemeを提案する。
- 参考スコア(独自算出の注目度): 16.4111250168657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of multimodal memes in the social media era demands that multimodal Large Language Models (mLLMs) effectively understand meme harmfulness. Existing benchmarks for assessing mLLMs on harmful meme understanding rely on accuracy-based, model-agnostic evaluations using static datasets. These benchmarks are limited in their ability to provide up-to-date and thorough assessments, as online memes evolve dynamically. To address this, we propose AdamMeme, a flexible, agent-based evaluation framework that adaptively probes the reasoning capabilities of mLLMs in deciphering meme harmfulness. Through multi-agent collaboration, AdamMeme provides comprehensive evaluations by iteratively updating the meme data with challenging samples, thereby exposing specific limitations in how mLLMs interpret harmfulness. Extensive experiments show that our framework systematically reveals the varying performance of different target mLLMs, offering in-depth, fine-grained analyses of model-specific weaknesses. Our code is available at https://github.com/Lbotirx/AdamMeme.
- Abstract(参考訳): ソーシャルメディア時代におけるマルチモーダル・ミームの拡散は、マルチモーダル・大規模言語モデル(mLLM)がミームの有害性を効果的に理解することを要求している。
有害なミーム理解に基づいてmLLMを評価するための既存のベンチマークは、静的データセットを用いた精度に基づくモデルに依存している。
これらのベンチマークは、オンラインミームが動的に進化するにつれて、最新かつ徹底的な評価を提供する能力に制限されている。
そこで本稿では,mLLMsの因果関係を適応的に探索する,フレキシブルなエージェントベース評価フレームワークであるAdamMemeを提案する。
マルチエージェントコラボレーションを通じて、AdamMemeは、挑戦的なサンプルでミームデータを反復的に更新することで包括的な評価を提供し、その結果、mLLMが有害性をどのように解釈するかの具体的な制限を明らかにする。
大規模な実験により,本フレームワークは,モデル固有の弱点を詳細に詳細に解析し,異なるターゲットmLLMの様々な性能を系統的に明らかにしている。
私たちのコードはhttps://github.com/Lbotirx/AdamMeme.comから入手可能です。
関連論文リスト
- Detecting Harmful Memes with Decoupled Understanding and Guided CoT Reasoning [26.546646866501735]
有害ミーム検出のための新しいフレームワークであるU-CoT+を紹介する。
まず,視覚的ミームを詳細なテキスト記述に変換する高忠実度ミーム・トゥ・テキストパイプラインを開発する。
この設計は、ミームの解釈をミーム分類から切り離し、複雑な生の視覚的内容に対する即時推論を避ける。
論文 参考訳(メタデータ) (2025-06-10T06:10:45Z) - CAMU: Context Augmentation for Meme Understanding [9.49890289676001]
ソーシャルメディアのミームは、文化的にニュアンスのあるメッセージに視覚的およびテキスト的手がかりを織り込むため、ヘイト検出の難しい領域である。
より説明的なキャプションを生成するために,大規模な視覚言語モデルを活用した新しいフレームワークCAMUを導入する。
提案手法は,Hateful Memesデータセット上での精度(0.807)とF1スコア(0.806)を,既存のSoTAフレームワークと同等に達成する。
論文 参考訳(メタデータ) (2025-04-24T19:27:55Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Demystifying Hateful Content: Leveraging Large Multimodal Models for Hateful Meme Detection with Explainable Decisions [4.649093665157263]
本稿では,LMM(Large Multimodal Models)を利用した新しいフレームワークであるIntMemeを紹介する。
IntMemeは、ミームのモデレーションにおける正確性と説明可能性の両方を改善するという2つの課題に対処する。
提案手法はPT-VLMにおける不透明度と誤分類の問題に対処し,LMMを用いた憎しみのあるミーム検出を最適化する。
論文 参考訳(メタデータ) (2025-02-16T10:45:40Z) - Towards Low-Resource Harmful Meme Detection with LMM Agents [13.688955830843973]
低リソース有害ミーム検出のためのエージェント駆動型フレームワークを提案する。
まず、LMMエージェントの補助信号としてラベル情報を利用するアノテーション付き相対ミームを検索する。
我々は,LMMエージェント内での知識改善行動を利用して,ミーム有害性に関するよく一般化された洞察を導出する。
論文 参考訳(メタデータ) (2024-11-08T07:43:15Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - GenCeption: Evaluate Vision LLMs with Unlabeled Unimodal Data [3.08543976986593]
MLLM(Multimodal Large Language Models)は通常、高価な注釈付きマルチモーダルベンチマークを用いて評価される。
本稿では,新しいアノテーションのない評価手法であるGenCeptionの概要と検証を行う。
モダリティ間のセマンティック・コヒーレンスを測定するために一元データのみを必要とし、逆にMLLMの幻覚傾向を評価する。
論文 参考訳(メタデータ) (2024-02-22T21:22:04Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。