論文の概要: Meme Trojan: Backdoor Attacks Against Hateful Meme Detection via Cross-Modal Triggers
- arxiv url: http://arxiv.org/abs/2412.15503v1
- Date: Fri, 20 Dec 2024 02:32:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 19:50:45.777841
- Title: Meme Trojan: Backdoor Attacks Against Hateful Meme Detection via Cross-Modal Triggers
- Title(参考訳): Meme Trojan: クロスモーダルトリガーによる有害なミーム検出に対するバックドア攻撃
- Authors: Ruofei Wang, Hongzhan Lin, Ziyuan Luo, Ka Chun Cheung, Simon See, Jing Ma, Renjie Wan,
- Abstract要約: 本稿では,これまで無視されていたが,ヘイトフルミーム検出に対する重大な脅威であるバックドアアタックを紹介した。
特定のトリガーをミームサンプルに注入することで、バックドアアタッカーは検知器を操作して所望の結果を出力することができる。
ヘイトフルミーム検出に対するバックドア攻撃を開始するためのMeme Trojanフレームワークを提案する。
- 参考スコア(独自算出の注目度): 21.305974933326024
- License:
- Abstract: Hateful meme detection aims to prevent the proliferation of hateful memes on various social media platforms. Considering its impact on social environments, this paper introduces a previously ignored but significant threat to hateful meme detection: backdoor attacks. By injecting specific triggers into meme samples, backdoor attackers can manipulate the detector to output their desired outcomes. To explore this, we propose the Meme Trojan framework to initiate backdoor attacks on hateful meme detection. Meme Trojan involves creating a novel Cross-Modal Trigger (CMT) and a learnable trigger augmentor to enhance the trigger pattern according to each input sample. Due to the cross-modal property, the proposed CMT can effectively initiate backdoor attacks on hateful meme detectors under an automatic application scenario. Additionally, the injection position and size of our triggers are adaptive to the texts contained in the meme, which ensures that the trigger is seamlessly integrated with the meme content. Our approach outperforms the state-of-the-art backdoor attack methods, showing significant improvements in effectiveness and stealthiness. We believe that this paper will draw more attention to the potential threat posed by backdoor attacks on hateful meme detection.
- Abstract(参考訳): 憎しみのあるミーム検出は、さまざまなソーシャルメディアプラットフォーム上での憎しみのあるミームの拡散を防ぐことを目的としている。
本稿では,社会環境への影響を考慮し,ヘイトフル・ミーム検出の脅威であるバックドア・アタック(バックドア・アタック)を導入する。
特定のトリガーをミームサンプルに注入することで、バックドアアタッカーは検知器を操作して所望の結果を出力することができる。
そこで本研究では,ヘイトフルミーム検出に対するバックドア攻撃を開始するためのMeme Trojanフレームワークを提案する。
Meme Trojanは、新しいクロスモーダルトリガー(CMT)と学習可能なトリガー拡張器を作成し、各入力サンプルに従ってトリガーパターンを強化する。
クロスモーダル性のため、提案したCMTは、自動的な応用シナリオの下で、ヘイトフルミー検出器に対するバックドア攻撃を効果的に開始することができる。
さらに、トリガーの注入位置とサイズはミームに含まれるテキストに適応し、トリガーがミームの内容とシームレスに統合されることを保証する。
提案手法は,最先端のバックドア攻撃法より優れ,有効性とステルスネスの大幅な向上を示す。
本論文は、ヘイトフルミーム検出に対するバックドア攻撃による潜在的な脅威に、より注意を向けるものであると信じている。
関連論文リスト
- Zero shot VLMs for hate meme detection: Are we there yet? [9.970031080934003]
本研究では,ヘイト・ミーム検出などの複雑なタスクに対する視覚言語モデルの有効性について検討した。
我々は、大きなVLMが未だにゼロショットのヘイトミーム検出に弱いことを観察する。
論文 参考訳(メタデータ) (2024-02-19T15:03:04Z) - Meme-ingful Analysis: Enhanced Understanding of Cyberbullying in Memes
Through Multimodal Explanations [48.82168723932981]
Em MultiBully-Exは、コード混在型サイバーいじめミームからマルチモーダルな説明を行うための最初のベンチマークデータセットである。
ミームの視覚的およびテキスト的説明のために,コントラスト言語-画像事前学習 (CLIP) アプローチが提案されている。
論文 参考訳(メタデータ) (2024-01-18T11:24:30Z) - Attention-Enhancing Backdoor Attacks Against BERT-based Models [54.070555070629105]
バックドア攻撃の戦略を調べることは、モデルの脆弱性を理解するのに役立つだろう。
本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:24:56Z) - Look, Listen, and Attack: Backdoor Attacks Against Video Action
Recognition [53.720010650445516]
有毒ラベル画像のバックドア攻撃は静的かつ動的に2つの時間的拡張が可能であることを示す。
さらに、ビデオ領域におけるこの脆弱性の深刻さを強調するために、自然なビデオバックドアを探索する。
また,ビデオ行動認識モデルに対するマルチモーダル(オービジュアル)バックドアアタックを初めて検討した。
論文 参考訳(メタデータ) (2023-01-03T07:40:28Z) - On the Evolution of (Hateful) Memes by Means of Multimodal Contrastive
Learning [18.794226796466962]
複数の画像から視覚要素を合成したり、テキスト情報をヘイトフル画像と融合させたりすることで、ヘイトフルミームがどのように生成されるかを研究する。
4chanから抽出したデータセット上の我々のフレームワークを用いて、Happy Merchantミームの3.3K変種を見つける。
我々のフレームワークは、ヘイトフルミームの新たな変種をフラグ付けすることで、人間のモデレーターを助けることができると期待している。
論文 参考訳(メタデータ) (2022-12-13T13:38:04Z) - Detecting Harmful Memes and Their Targets [27.25262711136056]
COVID-19に関連する3,544のミームを含む最初のベンチマークデータセットであるHarMemeを紹介します。
第1段階では、ミームを非常に有害、部分的に有害、または無害とラベル付けし、第2段階では、有害ミームが示す標的の種類をさらにアノテートした。
10の単一モーダルモデルとマルチモーダルモデルによる評価結果は、両方のタスクにマルチモーダル信号を使用することの重要性を強調している。
論文 参考訳(メタデータ) (2021-09-24T17:11:42Z) - MOMENTA: A Multimodal Framework for Detecting Harmful Memes and Their
Targets [28.877314859737197]
我々は,有害ミームの検出と,対象とする社会的実体の特定という,新たな2つの課題を解決しようとしている。
特に,有害ミームの検出と,対象とする社会的実体の特定という,新たな2つの課題の解決を目指す。
我々は,世界的および地域的視点を用いて有害ミームを検出する,新しいマルチモーダル(テキスト+画像)ディープニューラルモデルMOMENTAを提案する。
論文 参考訳(メタデータ) (2021-09-11T04:29:32Z) - Memes in the Wild: Assessing the Generalizability of the Hateful Memes
Challenge Dataset [47.65948529524281]
Pinterestからヘイトフルで非ヘイトフルなミームを収集して、Facebookデータセットで事前トレーニングされたモデルで、サンプル外のパフォーマンスを評価します。
1) キャプションをOCRで抽出しなければならない,2) ミームは従来のミームよりも多様であり, 会話のスクリーンショットやテキストをプレーンな背景に表示する,という2つの重要な側面がある。
論文 参考訳(メタデータ) (2021-07-09T09:04:05Z) - Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger [48.59965356276387]
本稿では,テキストバックドア攻撃の引き金として構文構造を用いることを提案する。
我々は、トリガーベースアタック法が同等のアタック性能を達成できることを示すため、広範囲な実験を行った。
また,本研究の結果から,テキストバックドア攻撃の重篤さと有害性も明らかとなった。
論文 参考訳(メタデータ) (2021-05-26T08:54:19Z) - Multimodal Learning for Hateful Memes Detection [6.6881085567421605]
本稿では,画像キャプション処理をミーム検出プロセスに組み込む新しい手法を提案する。
本モデルは,Hateful Memes Detection Challengeにおける有望な結果を得る。
論文 参考訳(メタデータ) (2020-11-25T16:49:15Z) - Rethinking the Trigger of Backdoor Attack [83.98031510668619]
現在、既存のバックドア攻撃のほとんどは、トレーニングとテスト用の画像は同じ外観で、同じエリアに置かれている。
テスト画像のトリガーがトレーニングで使用されるものと一致していない場合、このような攻撃パラダイムが脆弱であることを示す。
論文 参考訳(メタデータ) (2020-04-09T17:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。