論文の概要: Detecting and Mitigating Hateful Content in Multimodal Memes with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.00150v1
- Date: Wed, 30 Apr 2025 19:48:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.165529
- Title: Detecting and Mitigating Hateful Content in Multimodal Memes with Vision-Language Models
- Title(参考訳): 視覚言語モデルを用いたマルチモーダルミームにおける有害コンテンツの検出と緩和
- Authors: Minh-Hao Van, Xintao Wu,
- Abstract要約: マルチモーダルミームは、個人やグループに対してヘイトスピーチを広めるために悪用されることがある。
ヘイトフルなミームを検出するための定義誘導プロンプト手法と、UnHateMemeという名前のミームにおけるヘイトフルなコンテンツを緩和するための統一的なフレームワークを提案する。
我々のフレームワークはビジョン・ランゲージ・モデルと統合されており、ヘイトフル・ミームを非ヘイトフル・フォームに変換する強力な能力を示している。
- 参考スコア(独自算出の注目度): 12.929357709840975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid evolution of social media has provided enhanced communication channels for individuals to create online content, enabling them to express their thoughts and opinions. Multimodal memes, often utilized for playful or humorous expressions with visual and textual elements, are sometimes misused to disseminate hate speech against individuals or groups. While the detection of hateful memes is well-researched, developing effective methods to transform hateful content in memes remains a significant challenge. Leveraging the powerful generation and reasoning capabilities of Vision-Language Models (VLMs), we address the tasks of detecting and mitigating hateful content. This paper presents two key contributions: first, a definition-guided prompting technique for detecting hateful memes, and second, a unified framework for mitigating hateful content in memes, named UnHateMeme, which works by replacing hateful textual and/or visual components. With our definition-guided prompts, VLMs achieve impressive performance on hateful memes detection task. Furthermore, our UnHateMeme framework, integrated with VLMs, demonstrates a strong capability to convert hateful memes into non-hateful forms that meet human-level criteria for hate speech and maintain multimodal coherence between image and text. Through empirical experiments, we show the effectiveness of state-of-the-art pretrained VLMs such as LLaVA, Gemini and GPT-4o on the proposed tasks, providing a comprehensive analysis of their respective strengths and limitations for these tasks. This paper aims to shed light on important applications of VLMs for ensuring safe and respectful online environments.
- Abstract(参考訳): ソーシャルメディアの急速な進化により、個人がオンラインコンテンツを作成するためのコミュニケーションチャネルが強化され、思考や意見を表現できるようになった。
マルチモーダル・ミームは、しばしば視覚的、テキスト的要素を持つ遊び心のある、ユーモラスな表現に使用されるが、個人やグループに対するヘイトスピーチを広めるために、しばしば誤用される。
ヘイトフルなミームの検出はよく研究されているが、ミームでヘイトフルなコンテンツを変換する効果的な方法を開発することは重要な課題である。
VLM(Vision-Language Models)の強力な生成能力と推論能力を活用することで、ヘイトフルコンテンツの検出と緩和の課題に対処する。
本稿では、まず、ヘイトフルなミームを検出するための定義誘導プロンプト技術と、ヘイトフルなテキストやビジュアルなコンポーネントを置き換えることで、ミーム内のヘイトフルなコンテンツを緩和する統一的なフレームワークUnHateMemeについて述べる。
定義誘導プロンプトにより、VLMはヘイトフルミーム検出タスクにおいて印象的な性能を達成する。
さらに、VLMと統合されたUnHateMemeフレームワークは、ヘイトフルミームをヘイトスピーチの人間レベルの基準を満たし、画像とテキスト間のマルチモーダルコヒーレンスを維持する非ヘイトフルフォームに変換する強力な能力を示す。
実験により,LLaVA,Gemini,GPT-4oといった最先端のVLMが提案課題に対して有効であることを示し,これらの課題に対するそれぞれの強みと限界を包括的に分析した。
本稿は,VLM の重要応用に光を当てて,安全で尊敬に値するオンライン環境を実現することを目的とする。
関連論文リスト
- Improving Multimodal Hateful Meme Detection Exploiting LMM-Generated Knowledge [11.801596051153725]
ミームで憎しみのあるコンテンツを検出することが 重要な課題として現れました
我々は,LMM(Large Multimodal Models)に符号化された知識を活用した課題に取り組むことを提案する。
まず,強靭なミーム表現を構築するために,憎しみのあるミーム検出タスクを指向した知識を抽出することで,LMMを2倍に活用することを提案する。
論文 参考訳(メタデータ) (2025-04-14T06:23:44Z) - HateSieve: A Contrastive Learning Framework for Detecting and Segmenting Hateful Content in Multimodal Memes [8.97062933976566]
textscHateSieveは、ミーム内の憎しみのある要素の検出とセグメンテーションを強化するために設計されたフレームワークである。
textscHateSieveは、セマンティックなペアのミームを生成するContrastive Meme Generatorを特徴としている。
Hateful Memeでの実証実験では、textscHateSieveはトレーニング可能なパラメータが少なく、既存のLMMを超えるだけでなく、ヘイトフルコンテンツを正確に識別し、分離するための堅牢なメカニズムを提供する。
論文 参考訳(メタデータ) (2024-08-11T14:56:06Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Exploring the Limits of Zero Shot Vision Language Models for Hate Meme Detection: The Vulnerabilities and their Interpretations [9.970031080934003]
本稿では,ハイトミーム検出などの複雑なタスクに対する現代の視覚言語モデル(VLM)の有効性について検討する。
我々は、様々なプロンプトタイプを用いて、徹底的なプロンプトエンジニアリングと最先端VLMのクエリを行い、ヘイトフル/ハームフルミームを検出する。
論文 参考訳(メタデータ) (2024-02-19T15:03:04Z) - Meme-ingful Analysis: Enhanced Understanding of Cyberbullying in Memes
Through Multimodal Explanations [48.82168723932981]
Em MultiBully-Exは、コード混在型サイバーいじめミームからマルチモーダルな説明を行うための最初のベンチマークデータセットである。
ミームの視覚的およびテキスト的説明のために,コントラスト言語-画像事前学習 (CLIP) アプローチが提案されている。
論文 参考訳(メタデータ) (2024-01-18T11:24:30Z) - Mapping Memes to Words for Multimodal Hateful Meme Classification [26.101116761577796]
一部のミームは悪意があり、ヘイトフルなコンテンツを宣伝し、差別を永続させる。
マルチモーダルヘイトフルミーム分類のためのISSUESという新しい手法を提案する。
提案手法は,Hateful Memes Challenge と HarMeme データセットの最先端化を実現する。
論文 参考訳(メタデータ) (2023-10-12T14:38:52Z) - DisinfoMeme: A Multimodal Dataset for Detecting Meme Intentionally
Spreading Out Disinformation [72.18912216025029]
偽情報ミームの検出を支援するためにDisinfoMemeを提案する。
このデータセットには、COVID-19パンデミック、Black Lives Matter運動、ベジタリアン/ベジタリアンという3つのトピックをカバーするRedditのミームが含まれている。
論文 参考訳(メタデータ) (2022-05-25T09:54:59Z) - DISARM: Detecting the Victims Targeted by Harmful Memes [49.12165815990115]
DISARMは、有害なミームを検出するために名前付きエンティティ認識と個人識別を使用するフレームワークである。
DISARMは10の単一モーダル・マルチモーダルシステムより著しく優れていることを示す。
複数の強力なマルチモーダルライバルに対して、有害なターゲット識別の相対誤差率を最大9ポイントまで下げることができる。
論文 参考訳(メタデータ) (2022-05-11T19:14:26Z) - Detecting and Understanding Harmful Memes: A Survey [48.135415967633676]
我々は有害なミームに焦点を当てた総合的な調査を行っている。
興味深い発見の1つは、多くの有害ミームが実際には研究されていないことである。
別の観察では、ミームは異なる言語で再パッケージ化することでグローバルに伝播し、多言語化することもできる。
論文 参考訳(メタデータ) (2022-05-09T13:43:27Z) - Memes in the Wild: Assessing the Generalizability of the Hateful Memes
Challenge Dataset [47.65948529524281]
Pinterestからヘイトフルで非ヘイトフルなミームを収集して、Facebookデータセットで事前トレーニングされたモデルで、サンプル外のパフォーマンスを評価します。
1) キャプションをOCRで抽出しなければならない,2) ミームは従来のミームよりも多様であり, 会話のスクリーンショットやテキストをプレーンな背景に表示する,という2つの重要な側面がある。
論文 参考訳(メタデータ) (2021-07-09T09:04:05Z) - Multimodal Learning for Hateful Memes Detection [6.6881085567421605]
本稿では,画像キャプション処理をミーム検出プロセスに組み込む新しい手法を提案する。
本モデルは,Hateful Memes Detection Challengeにおける有望な結果を得る。
論文 参考訳(メタデータ) (2020-11-25T16:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。