論文の概要: Beneath the Surface: Unveiling Harmful Memes with Multimodal Reasoning
Distilled from Large Language Models
- arxiv url: http://arxiv.org/abs/2312.05434v1
- Date: Sat, 9 Dec 2023 01:59:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 20:44:08.520460
- Title: Beneath the Surface: Unveiling Harmful Memes with Multimodal Reasoning
Distilled from Large Language Models
- Title(参考訳): 表面下: 大きな言語モデルから蒸留したマルチモーダル推論による有害なミームの公開
- Authors: Hongzhan Lin, Ziyang Luo, Jing Ma and Long Chen
- Abstract要約: 既存の有害なミーム検出手法は、端から端までの分類方法において、表面的な害を示す信号のみを認識する。
本稿では,多モーダル融合を改善するために,大規模言語モデルから合理的な思考を学習するための新しい生成フレームワークを提案する。
提案手法は,有害ミーム検出タスクにおける最先端手法よりも優れた性能を実現する。
- 参考スコア(独自算出の注目度): 17.617187709968242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The age of social media is rife with memes. Understanding and detecting
harmful memes pose a significant challenge due to their implicit meaning that
is not explicitly conveyed through the surface text and image. However,
existing harmful meme detection approaches only recognize superficial
harm-indicative signals in an end-to-end classification manner but ignore
in-depth cognition of the meme text and image. In this paper, we attempt to
detect harmful memes based on advanced reasoning over the interplay of
multimodal information in memes. Inspired by the success of Large Language
Models (LLMs) on complex reasoning, we first conduct abductive reasoning with
LLMs. Then we propose a novel generative framework to learn reasonable thoughts
from LLMs for better multimodal fusion and lightweight fine-tuning, which
consists of two training stages: 1) Distill multimodal reasoning knowledge from
LLMs; and 2) Fine-tune the generative framework to infer harmfulness. Extensive
experiments conducted on three meme datasets demonstrate that our proposed
approach achieves superior performance than state-of-the-art methods on the
harmful meme detection task.
- Abstract(参考訳): ソーシャルメディアの時代はミームで溢れている。
有害なミームの理解と検出は、表面のテキストや画像を通して明示的に伝達されない暗黙の意味のため、大きな課題となる。
しかし, 既存の有害ミーム検出手法は, 端から端までの分類において, 表面的有害信号のみを認識するが, ミームテキストや画像の深い認識を無視する。
本稿では,マルチモーダル情報の相互作用に関する高度な推論に基づいて,有害ミームの検出を試みる。
複雑な推論におけるLarge Language Models (LLMs) の成功に触発されて, まず LLM を用いて帰納的推論を行う。
次に,LLMから適切な思考を学習し,より優れたマルチモーダル融合と軽量微調整を実現するための新しい生成フレームワークを提案する。
1)LLMからの多モーダル推論知識の希薄化,及び
2) 有害性を推測するための生成枠組みを微調整する。
3つのミームデータセットを用いた実験により,提案手法は有害ミーム検出タスクの最先端手法よりも優れた性能を示すことが示された。
関連論文リスト
- Demystifying Hateful Content: Leveraging Large Multimodal Models for Hateful Meme Detection with Explainable Decisions [4.649093665157263]
本稿では,LMM(Large Multimodal Models)を利用した新しいフレームワークであるIntMemeを紹介する。
IntMemeは、ミームのモデレーションにおける正確性と説明可能性の両方を改善するという2つの課題に対処する。
提案手法はPT-VLMにおける不透明度と誤分類の問題に対処し,LMMを用いた憎しみのあるミーム検出を最適化する。
論文 参考訳(メタデータ) (2025-02-16T10:45:40Z) - XMeCap: Meme Caption Generation with Sub-Image Adaptability [53.2509590113364]
社会的な意味や文化的な詳細に深く根ざした噂は、機械にとってユニークな挑戦である。
我々は、教師付き微調整と強化学習を採用するtextscXMeCapフレームワークを紹介した。
textscXMeCapは、シングルイメージのミームの平均評価スコアが75.85で、マルチイメージのミームは66.32で、それぞれ3.71%と4.82%で最高のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-07-24T10:51:46Z) - MemeMQA: Multimodal Question Answering for Memes via Rationale-Based Inferencing [53.30190591805432]
構造化された質問に対する正確な応答を求めるマルチモーダルな質問応答フレームワークであるMemeMQAを紹介する。
また,MemeMQAに対処する新しい2段階マルチモーダルフレームワークであるARSENALを提案する。
論文 参考訳(メタデータ) (2024-05-18T07:44:41Z) - Towards Explainable Harmful Meme Detection through Multimodal Debate
between Large Language Models [18.181154544563416]
ソーシャルメディアの時代はインターネットのミームで溢れており、有害なものを明確に把握し、効果的に識別する必要がある。
既存の有害なミーム検出手法では、検出決定を支援するためにそのような暗黙的な意味を明らかにする読みやすい説明は提示されない。
本研究では,無害な位置と有害な位置の両方から矛盾する合理性を推論することで,有害なミームを検出するための説明可能なアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-24T08:37:16Z) - Meme-ingful Analysis: Enhanced Understanding of Cyberbullying in Memes
Through Multimodal Explanations [48.82168723932981]
Em MultiBully-Exは、コード混在型サイバーいじめミームからマルチモーダルな説明を行うための最初のベンチマークデータセットである。
ミームの視覚的およびテキスト的説明のために,コントラスト言語-画像事前学習 (CLIP) アプローチが提案されている。
論文 参考訳(メタデータ) (2024-01-18T11:24:30Z) - Mapping Memes to Words for Multimodal Hateful Meme Classification [26.101116761577796]
一部のミームは悪意があり、ヘイトフルなコンテンツを宣伝し、差別を永続させる。
マルチモーダルヘイトフルミーム分類のためのISSUESという新しい手法を提案する。
提案手法は,Hateful Memes Challenge と HarMeme データセットの最先端化を実現する。
論文 参考訳(メタデータ) (2023-10-12T14:38:52Z) - DisinfoMeme: A Multimodal Dataset for Detecting Meme Intentionally
Spreading Out Disinformation [72.18912216025029]
偽情報ミームの検出を支援するためにDisinfoMemeを提案する。
このデータセットには、COVID-19パンデミック、Black Lives Matter運動、ベジタリアン/ベジタリアンという3つのトピックをカバーするRedditのミームが含まれている。
論文 参考訳(メタデータ) (2022-05-25T09:54:59Z) - Detecting and Understanding Harmful Memes: A Survey [48.135415967633676]
我々は有害なミームに焦点を当てた総合的な調査を行っている。
興味深い発見の1つは、多くの有害ミームが実際には研究されていないことである。
別の観察では、ミームは異なる言語で再パッケージ化することでグローバルに伝播し、多言語化することもできる。
論文 参考訳(メタデータ) (2022-05-09T13:43:27Z) - Memes in the Wild: Assessing the Generalizability of the Hateful Memes
Challenge Dataset [47.65948529524281]
Pinterestからヘイトフルで非ヘイトフルなミームを収集して、Facebookデータセットで事前トレーニングされたモデルで、サンプル外のパフォーマンスを評価します。
1) キャプションをOCRで抽出しなければならない,2) ミームは従来のミームよりも多様であり, 会話のスクリーンショットやテキストをプレーンな背景に表示する,という2つの重要な側面がある。
論文 参考訳(メタデータ) (2021-07-09T09:04:05Z) - Multimodal Learning for Hateful Memes Detection [6.6881085567421605]
本稿では,画像キャプション処理をミーム検出プロセスに組み込む新しい手法を提案する。
本モデルは,Hateful Memes Detection Challengeにおける有望な結果を得る。
論文 参考訳(メタデータ) (2020-11-25T16:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。