論文の概要: Beneath the Surface: Unveiling Harmful Memes with Multimodal Reasoning
Distilled from Large Language Models
- arxiv url: http://arxiv.org/abs/2312.05434v1
- Date: Sat, 9 Dec 2023 01:59:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 20:44:08.520460
- Title: Beneath the Surface: Unveiling Harmful Memes with Multimodal Reasoning
Distilled from Large Language Models
- Title(参考訳): 表面下: 大きな言語モデルから蒸留したマルチモーダル推論による有害なミームの公開
- Authors: Hongzhan Lin, Ziyang Luo, Jing Ma and Long Chen
- Abstract要約: 既存の有害なミーム検出手法は、端から端までの分類方法において、表面的な害を示す信号のみを認識する。
本稿では,多モーダル融合を改善するために,大規模言語モデルから合理的な思考を学習するための新しい生成フレームワークを提案する。
提案手法は,有害ミーム検出タスクにおける最先端手法よりも優れた性能を実現する。
- 参考スコア(独自算出の注目度): 17.617187709968242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The age of social media is rife with memes. Understanding and detecting
harmful memes pose a significant challenge due to their implicit meaning that
is not explicitly conveyed through the surface text and image. However,
existing harmful meme detection approaches only recognize superficial
harm-indicative signals in an end-to-end classification manner but ignore
in-depth cognition of the meme text and image. In this paper, we attempt to
detect harmful memes based on advanced reasoning over the interplay of
multimodal information in memes. Inspired by the success of Large Language
Models (LLMs) on complex reasoning, we first conduct abductive reasoning with
LLMs. Then we propose a novel generative framework to learn reasonable thoughts
from LLMs for better multimodal fusion and lightweight fine-tuning, which
consists of two training stages: 1) Distill multimodal reasoning knowledge from
LLMs; and 2) Fine-tune the generative framework to infer harmfulness. Extensive
experiments conducted on three meme datasets demonstrate that our proposed
approach achieves superior performance than state-of-the-art methods on the
harmful meme detection task.
- Abstract(参考訳): ソーシャルメディアの時代はミームで溢れている。
有害なミームの理解と検出は、表面のテキストや画像を通して明示的に伝達されない暗黙の意味のため、大きな課題となる。
しかし, 既存の有害ミーム検出手法は, 端から端までの分類において, 表面的有害信号のみを認識するが, ミームテキストや画像の深い認識を無視する。
本稿では,マルチモーダル情報の相互作用に関する高度な推論に基づいて,有害ミームの検出を試みる。
複雑な推論におけるLarge Language Models (LLMs) の成功に触発されて, まず LLM を用いて帰納的推論を行う。
次に,LLMから適切な思考を学習し,より優れたマルチモーダル融合と軽量微調整を実現するための新しい生成フレームワークを提案する。
1)LLMからの多モーダル推論知識の希薄化,及び
2) 有害性を推測するための生成枠組みを微調整する。
3つのミームデータセットを用いた実験により,提案手法は有害ミーム検出タスクの最先端手法よりも優れた性能を示すことが示された。
関連論文リスト
- XMeCap: Meme Caption Generation with Sub-Image Adaptability [53.2509590113364]
社会的な意味や文化的な詳細に深く根ざした噂は、機械にとってユニークな挑戦である。
我々は、教師付き微調整と強化学習を採用するtextscXMeCapフレームワークを紹介した。
textscXMeCapは、シングルイメージのミームの平均評価スコアが75.85で、マルチイメージのミームは66.32で、それぞれ3.71%と4.82%で最高のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-07-24T10:51:46Z) - MemeMQA: Multimodal Question Answering for Memes via Rationale-Based Inferencing [53.30190591805432]
構造化された質問に対する正確な応答を求めるマルチモーダルな質問応答フレームワークであるMemeMQAを紹介する。
また,MemeMQAに対処する新しい2段階マルチモーダルフレームワークであるARSENALを提案する。
論文 参考訳(メタデータ) (2024-05-18T07:44:41Z) - Towards Explainable Harmful Meme Detection through Multimodal Debate
between Large Language Models [18.181154544563416]
ソーシャルメディアの時代はインターネットのミームで溢れており、有害なものを明確に把握し、効果的に識別する必要がある。
既存の有害なミーム検出手法では、検出決定を支援するためにそのような暗黙的な意味を明らかにする読みやすい説明は提示されない。
本研究では,無害な位置と有害な位置の両方から矛盾する合理性を推論することで,有害なミームを検出するための説明可能なアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-24T08:37:16Z) - Meme-ingful Analysis: Enhanced Understanding of Cyberbullying in Memes
Through Multimodal Explanations [48.82168723932981]
Em MultiBully-Exは、コード混在型サイバーいじめミームからマルチモーダルな説明を行うための最初のベンチマークデータセットである。
ミームの視覚的およびテキスト的説明のために,コントラスト言語-画像事前学習 (CLIP) アプローチが提案されている。
論文 参考訳(メタデータ) (2024-01-18T11:24:30Z) - A Template Is All You Meme [83.05919383106715]
我々は,54,000枚以上の画像からなる www.knowyourme.com で発見されたミームと情報の知識ベースをリリースする。
我々は、ミームテンプレートが、以前のアプローチから欠落したコンテキストでモデルを注入するのに使えると仮定する。
論文 参考訳(メタデータ) (2023-11-11T19:38:14Z) - Mapping Memes to Words for Multimodal Hateful Meme Classification [26.101116761577796]
一部のミームは悪意があり、ヘイトフルなコンテンツを宣伝し、差別を永続させる。
マルチモーダルヘイトフルミーム分類のためのISSUESという新しい手法を提案する。
提案手法は,Hateful Memes Challenge と HarMeme データセットの最先端化を実現する。
論文 参考訳(メタデータ) (2023-10-12T14:38:52Z) - Detecting and Understanding Harmful Memes: A Survey [48.135415967633676]
我々は有害なミームに焦点を当てた総合的な調査を行っている。
興味深い発見の1つは、多くの有害ミームが実際には研究されていないことである。
別の観察では、ミームは異なる言語で再パッケージ化することでグローバルに伝播し、多言語化することもできる。
論文 参考訳(メタデータ) (2022-05-09T13:43:27Z) - Detecting Harmful Memes and Their Targets [27.25262711136056]
COVID-19に関連する3,544のミームを含む最初のベンチマークデータセットであるHarMemeを紹介します。
第1段階では、ミームを非常に有害、部分的に有害、または無害とラベル付けし、第2段階では、有害ミームが示す標的の種類をさらにアノテートした。
10の単一モーダルモデルとマルチモーダルモデルによる評価結果は、両方のタスクにマルチモーダル信号を使用することの重要性を強調している。
論文 参考訳(メタデータ) (2021-09-24T17:11:42Z) - Memes in the Wild: Assessing the Generalizability of the Hateful Memes
Challenge Dataset [47.65948529524281]
Pinterestからヘイトフルで非ヘイトフルなミームを収集して、Facebookデータセットで事前トレーニングされたモデルで、サンプル外のパフォーマンスを評価します。
1) キャプションをOCRで抽出しなければならない,2) ミームは従来のミームよりも多様であり, 会話のスクリーンショットやテキストをプレーンな背景に表示する,という2つの重要な側面がある。
論文 参考訳(メタデータ) (2021-07-09T09:04:05Z) - Multimodal Learning for Hateful Memes Detection [6.6881085567421605]
本稿では,画像キャプション処理をミーム検出プロセスに組み込む新しい手法を提案する。
本モデルは,Hateful Memes Detection Challengeにおける有望な結果を得る。
論文 参考訳(メタデータ) (2020-11-25T16:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。