論文の概要: Learning from Mistakes: Enhancing Harmful Meme Detection via Misjudgment Risk Patterns
- arxiv url: http://arxiv.org/abs/2510.15946v2
- Date: Tue, 21 Oct 2025 03:40:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.643414
- Title: Learning from Mistakes: Enhancing Harmful Meme Detection via Misjudgment Risk Patterns
- Title(参考訳): 誤りから学ぶ:誤判断リスクパターンによる有害なミームの検出を促進する
- Authors: Wenshuo Wang, Ziyou Jiang, Junjie Wang, Mingyang Li, Jie Huang, Yuekai Huang, Zhiyuan Chang, Feiyan Duan, Qing Wang,
- Abstract要約: 本論文では,潜在的な誤認リスクを積極的に軽減し,学習による有害なミーム検出を改善する新しいアプローチであるPatMDを紹介する。
私たちの中核となる考え方は、表面的なコンテンツレベルのマッチングを超えて、その代わりに、根底にある誤判断のリスクパターンを特定することです。
5つの有害な検出タスクにわたる6,626ミームのベンチマーク実験は、PatMDが最先端のベースラインより優れていることを示している。
- 参考スコア(独自算出の注目度): 16.68482433496408
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Internet memes have emerged as a popular multimodal medium, yet they are increasingly weaponized to convey harmful opinions through subtle rhetorical devices like irony and metaphor. Existing detection approaches, including MLLM-based techniques, struggle with these implicit expressions, leading to frequent misjudgments. This paper introduces PatMD, a novel approach that improves harmful meme detection by learning from and proactively mitigating these potential misjudgment risks. Our core idea is to move beyond superficial content-level matching and instead identify the underlying misjudgment risk patterns, proactively guiding the MLLMs to avoid known misjudgment pitfalls. We first construct a knowledge base where each meme is deconstructed into a misjudgment risk pattern explaining why it might be misjudged, either overlooking harmful undertones (false negative) or overinterpreting benign content (false positive). For a given target meme, PatMD retrieves relevant patterns and utilizes them to dynamically guide the MLLM's reasoning. Experiments on a benchmark of 6,626 memes across 5 harmful detection tasks show that PatMD outperforms state-of-the-art baselines, achieving an average of 8.30\% improvement in F1-score and 7.71\% improvement in accuracy, demonstrating strong generalizability and improved detection capability of harmful memes.
- Abstract(参考訳): インターネットミームは、人気のあるマルチモーダルメディアとして登場したが、皮肉や比喩のような微妙な修辞的な装置を通じて有害な意見を伝えるために武器化されつつある。
MLLMベースのテクニックを含む既存の検出アプローチは、これらの暗黙の表現に苦労し、しばしば誤った判断を下す。
本報告では,これらの誤認識リスクから学習し,積極的に軽減することにより,有害なミーム検出を改善する新しいアプローチであるPatMDを紹介する。
私たちの中核となる考え方は、表面的なコンテンツレベルのマッチングを超えて、その代わりに基盤となる誤判定のリスクパターンを特定し、既知の誤判定の落とし穴を避けるために積極的にMLLMを誘導することです。
まず, 有害な下音(偽陰性)や過度に解釈される良質な内容(偽陽性)を見越して, なぜ誤判断されるのかを説明する, 誤判断リスクパターンに分解された知識ベースを構築する。
特定のターゲットミームに対して、PatMDは関連するパターンを検索し、MLLMの推論を動的にガイドする。
5つの有害な検出タスクにわたる6,626ミームのベンチマーク実験により、PatMDは最先端のベースラインより優れ、F1スコアの平均8.30倍、精度7.71倍の改善、強力な一般化可能性の証明、有害なミームの検出能力の向上が示されている。
関連論文リスト
- Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - Are Vision-Language Models Safe in the Wild? A Meme-Based Benchmark Study [15.256561636802457]
MemeSafetyBenchは、有害な命令と良質な命令の両方で、実際のミームイメージをペアリングするベンチマークである。
実世界のミームが有害なアウトプットに与える影響,会話コンテキストの緩和効果,モデル尺度と安全性指標の関係について検討する。
論文 参考訳(メタデータ) (2025-05-21T11:26:40Z) - Improving Multimodal Hateful Meme Detection Exploiting LMM-Generated Knowledge [11.801596051153725]
ミームで憎しみのあるコンテンツを検出することが 重要な課題として現れました
我々は,LMM(Large Multimodal Models)に符号化された知識を活用した課題に取り組むことを提案する。
まず,強靭なミーム表現を構築するために,憎しみのあるミーム検出タスクを指向した知識を抽出することで,LMMを2倍に活用することを提案する。
論文 参考訳(メタデータ) (2025-04-14T06:23:44Z) - MM-PoisonRAG: Disrupting Multimodal RAG with Local and Global Poisoning Attacks [104.50239783909063]
Retrieval Augmented Generation (RAG) を用いた多モーダル大規模言語モデルは、多モーダル質問応答のようなかなり高度なタスクを持つ。
この外部知識への依存は、知識中毒攻撃(英語版)という、危険だが未発見の安全リスクを引き起こす。
マルチモーダルRAGにおける知識中毒を体系的に設計する最初のフレームワークであるMM-PoisonRAGを提案する。
論文 参考訳(メタデータ) (2025-02-25T04:23:59Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - MOSSBench: Is Your Multimodal Language Model Oversensitive to Safe Queries? [70.77691645678804]
人間は認知の歪みに傾向があり、特定の刺激に対する過大な反応を引き起こす偏見のある思考パターンがある。
本稿では,高度マルチモーダル言語モデル (MLLM) が同様の傾向を示すことを示す。
既存のMLLMの過敏性を引き起こす3種類の刺激を同定する。
論文 参考訳(メタデータ) (2024-06-22T23:26:07Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Exploring the Limits of Zero Shot Vision Language Models for Hate Meme Detection: The Vulnerabilities and their Interpretations [9.970031080934003]
本稿では,ハイトミーム検出などの複雑なタスクに対する現代の視覚言語モデル(VLM)の有効性について検討する。
我々は、様々なプロンプトタイプを用いて、徹底的なプロンプトエンジニアリングと最先端VLMのクエリを行い、ヘイトフル/ハームフルミームを検出する。
論文 参考訳(メタデータ) (2024-02-19T15:03:04Z) - Towards Explainable Harmful Meme Detection through Multimodal Debate
between Large Language Models [18.181154544563416]
ソーシャルメディアの時代はインターネットのミームで溢れており、有害なものを明確に把握し、効果的に識別する必要がある。
既存の有害なミーム検出手法では、検出決定を支援するためにそのような暗黙的な意味を明らかにする読みやすい説明は提示されない。
本研究では,無害な位置と有害な位置の両方から矛盾する合理性を推論することで,有害なミームを検出するための説明可能なアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-24T08:37:16Z) - Beneath the Surface: Unveiling Harmful Memes with Multimodal Reasoning
Distilled from Large Language Models [17.617187709968242]
既存の有害なミーム検出手法は、端から端までの分類方法において、表面的な害を示す信号のみを認識する。
本稿では,多モーダル融合を改善するために,大規模言語モデルから合理的な思考を学習するための新しい生成フレームワークを提案する。
提案手法は,有害ミーム検出タスクにおける最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-12-09T01:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。