論文の概要: Improving Multimodal Hateful Meme Detection Exploiting LMM-Generated Knowledge
- arxiv url: http://arxiv.org/abs/2504.09914v1
- Date: Mon, 14 Apr 2025 06:23:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:51:44.613440
- Title: Improving Multimodal Hateful Meme Detection Exploiting LMM-Generated Knowledge
- Title(参考訳): LMM生成知識を用いたマルチモーダル・ハトフル・ミーム検出の改良
- Authors: Maria Tzelepi, Vasileios Mezaris,
- Abstract要約: ミームで憎しみのあるコンテンツを検出することが 重要な課題として現れました
我々は,LMM(Large Multimodal Models)に符号化された知識を活用した課題に取り組むことを提案する。
まず,強靭なミーム表現を構築するために,憎しみのあるミーム検出タスクを指向した知識を抽出することで,LMMを2倍に活用することを提案する。
- 参考スコア(独自算出の注目度): 11.801596051153725
- License:
- Abstract: Memes have become a dominant form of communication in social media in recent years. Memes are typically humorous and harmless, however there are also memes that promote hate speech, being in this way harmful to individuals and groups based on their identity. Therefore, detecting hateful content in memes has emerged as a task of critical importance. The need for understanding the complex interactions of images and their embedded text renders the hateful meme detection a challenging multimodal task. In this paper we propose to address the aforementioned task leveraging knowledge encoded in powerful Large Multimodal Models (LMM). Specifically, we propose to exploit LMMs in a two-fold manner. First, by extracting knowledge oriented to the hateful meme detection task in order to build strong meme representations. Specifically, generic semantic descriptions and emotions that the images along with their embedded texts elicit are extracted, which are then used to train a simple classification head for hateful meme detection. Second, by developing a novel hard mining approach introducing directly LMM-encoded knowledge to the training process, providing further improvements. We perform extensive experiments on two datasets that validate the effectiveness of the proposed method, achieving state-of-the-art performance. Our code and trained models are publicly available at: https://github.com/IDT-ITI/LMM-CLIP-meme.
- Abstract(参考訳): 近年、ミームはソーシャルメディアにおけるコミュニケーションの主流となっている。
ミームは通常ユーモラスで無害であるが、ヘイトスピーチを促進するミームもある。
そのため、ミームにおける憎悪的な内容の検出が重要な課題として浮上している。
画像とそれらの埋め込みテキストの複雑な相互作用を理解する必要性は、憎しみに満ちたミーム検出を困難なマルチモーダルタスクに導く。
本稿では,LMM(Large Multimodal Models)に符号化された知識を活用する上で,上記の課題に対処することを提案する。
具体的には,LMMを2次元的に活用することを提案する。
まず、強靭なミーム表現を構築するために、憎しみに満ちたミーム検出タスクを指向した知識を抽出する。
具体的には、埋め込みテキストとともに画像が引き起こす一般的な意味記述と感情を抽出し、ヘイトフルミーム検出のための単純な分類ヘッドを訓練する。
第二に、LMMに符号化された知識をトレーニングプロセスに直接導入する新しいハードマイニング手法を開発し、さらなる改善を提供する。
本研究では,提案手法の有効性を検証し,最先端性能を実現する2つのデータセットについて広範な実験を行った。
私たちのコードとトレーニングされたモデルは、https://github.com/IDT-ITI/LMM-CLIP-memeで公開されています。
関連論文リスト
- Demystifying Hateful Content: Leveraging Large Multimodal Models for Hateful Meme Detection with Explainable Decisions [4.649093665157263]
本稿では,LMM(Large Multimodal Models)を利用した新しいフレームワークであるIntMemeを紹介する。
IntMemeは、ミームのモデレーションにおける正確性と説明可能性の両方を改善するという2つの課題に対処する。
提案手法はPT-VLMにおける不透明度と誤分類の問題に対処し,LMMを用いた憎しみのあるミーム検出を最適化する。
論文 参考訳(メタデータ) (2025-02-16T10:45:40Z) - Evolver: Chain-of-Evolution Prompting to Boost Large Multimodal Models for Hateful Meme Detection [49.122777764853055]
ヘイトフルミーム検出のためのLMM(Large Multimodal Models)の可能性を探る。
提案するEvolverは,Chain-of-Evolution (CoE) Promptingを介してLMMを組み込む。
Evolverは、ステップバイステップでLMMを通してミームと理由の進化と表現のプロセスをシミュレートする。
論文 参考訳(メタデータ) (2024-07-30T17:51:44Z) - MemeMQA: Multimodal Question Answering for Memes via Rationale-Based Inferencing [53.30190591805432]
構造化された質問に対する正確な応答を求めるマルチモーダルな質問応答フレームワークであるMemeMQAを紹介する。
また,MemeMQAに対処する新しい2段階マルチモーダルフレームワークであるARSENALを提案する。
論文 参考訳(メタデータ) (2024-05-18T07:44:41Z) - Meme-ingful Analysis: Enhanced Understanding of Cyberbullying in Memes
Through Multimodal Explanations [48.82168723932981]
Em MultiBully-Exは、コード混在型サイバーいじめミームからマルチモーダルな説明を行うための最初のベンチマークデータセットである。
ミームの視覚的およびテキスト的説明のために,コントラスト言語-画像事前学習 (CLIP) アプローチが提案されている。
論文 参考訳(メタデータ) (2024-01-18T11:24:30Z) - GOAT-Bench: Safety Insights to Large Multimodal Models through Meme-Based Social Abuse [14.571295331012331]
我々は、暗黙のヘイトスピーチ、サイバーいじめ、性差別などのテーマをカプセル化した6K以上の様々なミームからなる包括的なミームベンチマークGOAT-Benchを紹介した。
我々はLMMがヘイトフルネス、軽蔑、攻撃性、皮肉、有害なコンテンツを正確に評価する能力について検討した。
LMMの幅広い実験により、現在のモデルは安全意識に欠けており、様々な形態の暗黙的虐待に敏感であることが明らかとなった。
論文 参考訳(メタデータ) (2024-01-03T03:28:55Z) - Beneath the Surface: Unveiling Harmful Memes with Multimodal Reasoning
Distilled from Large Language Models [17.617187709968242]
既存の有害なミーム検出手法は、端から端までの分類方法において、表面的な害を示す信号のみを認識する。
本稿では,多モーダル融合を改善するために,大規模言語モデルから合理的な思考を学習するための新しい生成フレームワークを提案する。
提案手法は,有害ミーム検出タスクにおける最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-12-09T01:59:11Z) - Mapping Memes to Words for Multimodal Hateful Meme Classification [26.101116761577796]
一部のミームは悪意があり、ヘイトフルなコンテンツを宣伝し、差別を永続させる。
マルチモーダルヘイトフルミーム分類のためのISSUESという新しい手法を提案する。
提案手法は,Hateful Memes Challenge と HarMeme データセットの最先端化を実現する。
論文 参考訳(メタデータ) (2023-10-12T14:38:52Z) - DisinfoMeme: A Multimodal Dataset for Detecting Meme Intentionally
Spreading Out Disinformation [72.18912216025029]
偽情報ミームの検出を支援するためにDisinfoMemeを提案する。
このデータセットには、COVID-19パンデミック、Black Lives Matter運動、ベジタリアン/ベジタリアンという3つのトピックをカバーするRedditのミームが含まれている。
論文 参考訳(メタデータ) (2022-05-25T09:54:59Z) - DISARM: Detecting the Victims Targeted by Harmful Memes [49.12165815990115]
DISARMは、有害なミームを検出するために名前付きエンティティ認識と個人識別を使用するフレームワークである。
DISARMは10の単一モーダル・マルチモーダルシステムより著しく優れていることを示す。
複数の強力なマルチモーダルライバルに対して、有害なターゲット識別の相対誤差率を最大9ポイントまで下げることができる。
論文 参考訳(メタデータ) (2022-05-11T19:14:26Z) - Memes in the Wild: Assessing the Generalizability of the Hateful Memes
Challenge Dataset [47.65948529524281]
Pinterestからヘイトフルで非ヘイトフルなミームを収集して、Facebookデータセットで事前トレーニングされたモデルで、サンプル外のパフォーマンスを評価します。
1) キャプションをOCRで抽出しなければならない,2) ミームは従来のミームよりも多様であり, 会話のスクリーンショットやテキストをプレーンな背景に表示する,という2つの重要な側面がある。
論文 参考訳(メタデータ) (2021-07-09T09:04:05Z) - Multimodal Learning for Hateful Memes Detection [6.6881085567421605]
本稿では,画像キャプション処理をミーム検出プロセスに組み込む新しい手法を提案する。
本モデルは,Hateful Memes Detection Challengeにおける有望な結果を得る。
論文 参考訳(メタデータ) (2020-11-25T16:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。