論文の概要: HateProof: Are Hateful Meme Detection Systems really Robust?
- arxiv url: http://arxiv.org/abs/2302.05703v1
- Date: Sat, 11 Feb 2023 14:36:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 19:12:15.170882
- Title: HateProof: Are Hateful Meme Detection Systems really Robust?
- Title(参考訳): HateProof:Hateful Meme Detection Systemsは本当にロバストか?
- Authors: Piush Aggarwal, Pranit Chawla, Mithun Das, Punyajoy Saha, Binny
Mathew, Torsten Zesch, Animesh Mukherjee
- Abstract要約: 本稿では,このようなシステムの脆弱性を外敵攻撃に対して解析するためのユースケーススタディを提案する。
モデルに関する知識がほとんどない人間による一様および多様の環境における非常に単純な摂動でさえ、既存の検出モデルを非常に脆弱にすることができる。
- 参考スコア(独自算出の注目度): 6.850528200906822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploiting social media to spread hate has tremendously increased over the
years. Lately, multi-modal hateful content such as memes has drawn relatively
more traction than uni-modal content. Moreover, the availability of implicit
content payloads makes them fairly challenging to be detected by existing
hateful meme detection systems. In this paper, we present a use case study to
analyze such systems' vulnerabilities against external adversarial attacks. We
find that even very simple perturbations in uni-modal and multi-modal settings
performed by humans with little knowledge about the model can make the existing
detection models highly vulnerable. Empirically, we find a noticeable
performance drop of as high as 10% in the macro-F1 score for certain attacks.
As a remedy, we attempt to boost the model's robustness using contrastive
learning as well as an adversarial training-based method - VILLA. Using an
ensemble of the above two approaches, in two of our high resolution datasets,
we are able to (re)gain back the performance to a large extent for certain
attacks. We believe that ours is a first step toward addressing this crucial
problem in an adversarial setting and would inspire more such investigations in
the future.
- Abstract(参考訳): ソーシャルメディアを利用して憎しみを広めることは、ここ数年で著しく増加している。
近年、ミームのようなマルチモーダルなヘイトフルコンテンツはユニモーダルコンテンツよりも比較的トラクションが高い。
さらに、暗黙のコンテンツペイロードが利用できるため、既存のヘイトフルミーム検出システムで検出することがかなり難しい。
本稿では,このようなシステムの外部攻撃に対する脆弱性を分析するためのユースケーススタディを提案する。
モデルに関する知識がほとんどない人間による一様および多様の環境における非常に単純な摂動でさえ、既存の検出モデルを非常に脆弱にすることができる。
経験的には、特定の攻撃に対するマクロF1スコアの最大10%のパフォーマンス低下が顕著である。
改善策として,コントラスト学習によるモデルの堅牢性向上と,対向的なトレーニングベースの手法であるvillaを試みている。
上述の2つのアプローチのアンサンブルを使って、高解像度のデータセットの2つを使って、特定の攻撃に対してパフォーマンスを大々的に取り戻すことができます。
当社は、この重要な問題を敵対的な状況で解決するための第一歩であり、今後このような調査をさらに刺激するものだと考えています。
関連論文リスト
- From Attack to Defense: Insights into Deep Learning Security Measures in Black-Box Settings [1.8006345220416338]
敵のサンプルは深刻な脅威となり、モデルがそのようなアプリケーションの性能を誤解し、損なう可能性がある。
ディープラーニングモデルの堅牢性に対処することは、敵の攻撃を理解し防御するために重要になっている。
我々の研究は、SimBA、HopSkipJump、MGAAttack、境界攻撃などのブラックボックス攻撃、およびプリプロセッサベースの防御機構に焦点を当てている。
論文 参考訳(メタデータ) (2024-05-03T09:40:47Z) - On the Robustness of Large Multimodal Models Against Image Adversarial
Attacks [81.2935966933355]
大規模マルチモーダルモデル(LMM)に対する視覚的敵攻撃の影響について検討する。
一般的に,LMMは視覚的逆入力に対して頑健ではない。
本稿では,クエリ分解と呼ばれる実世界の画像分類への新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-06T04:59:56Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - Learning Transferable Adversarial Robust Representations via Multi-view
Consistency [57.73073964318167]
デュアルエンコーダを用いたメタ逆多視点表現学習フレームワークを提案する。
未確認領域からの少数ショット学習タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-10-19T11:48:01Z) - The Space of Adversarial Strategies [6.295859509997257]
機械学習モデルにおける最悪のケース動作を誘発するインプットである逆例は、過去10年間に広く研究されてきた。
最悪の場合(すなわち最適な)敵を特徴づける体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2022-09-09T20:53:11Z) - Hide and Seek: on the Stealthiness of Attacks against Deep Learning
Systems [15.733167372239432]
本研究は,深層学習に対する攻撃に使用される敵対的サンプルの盗聴性に関する最初の大規模研究である。
我々は6つの人気のあるベンチマークデータセットに対して、20の代表的な敵ML攻撃を実装した。
以上の結果から,既存の攻撃のほとんどは,人間の目には盗みのない非無視的摂動をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2022-05-31T16:43:22Z) - Adversarial Robustness of Deep Reinforcement Learning based Dynamic
Recommender Systems [50.758281304737444]
本稿では,強化学習に基づく対話型レコメンデーションシステムにおける敵例の探索と攻撃検出を提案する。
まず、入力に摂動を加え、カジュアルな要因に介入することで、異なる種類の逆例を作成する。
そこで,本研究では,人工データに基づく深層学習に基づく分類器による潜在的攻撃を検出することにより,推薦システムを強化した。
論文 参考訳(メタデータ) (2021-12-02T04:12:24Z) - Multi-granularity Textual Adversarial Attack with Behavior Cloning [4.727534308759158]
我々は,被害者モデルに対するクエリが少なく,高品質な対数サンプルを生成するためのマルチグラムYアタックモデルMAYAを提案する。
2つの異なるブラックボックス攻撃設定と3つのベンチマークデータセットでBiLSTM,BERT,RoBERTaを攻撃し、攻撃モデルを評価するための総合的な実験を行った。
論文 参考訳(メタデータ) (2021-09-09T15:46:45Z) - Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。
しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。
我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文 参考訳(メタデータ) (2021-06-17T14:23:54Z) - Better Robustness by More Coverage: Adversarial Training with Mixup
Augmentation for Robust Fine-tuning [69.65361463168142]
adversarial data augmentation (ada) が広く採用されており、トレーニング中にadversarial例を追加することで、adversarial attackの検索スペースを拡大しようとしている。
我々は,MixADA (Adversarial Data Augmentation with Mixup) と呼ばれる,攻撃検索空間のより広い割合をカバーする,シンプルで効果的な手法を提案する。
BERT と RoBERTa のテキスト分類実験において,MixADA は2つの強敵攻撃による顕著な堅牢性向上を実現し,元のデータに対する ADA の性能を緩和する。
論文 参考訳(メタデータ) (2020-12-31T16:28:07Z) - A Multimodal Framework for the Detection of Hateful Memes [16.7604156703965]
我々は憎しみのあるミームを検出するフレームワークの開発を目指している。
マルチモーダルとアンサンブル学習を促進するために,比較例のアップサンプリングの有効性を示す。
私たちの最良のアプローチは、UNITERベースのモデルのアンサンブルで構成され、80.53のAUROCスコアを達成し、Facebookが主催する2020 Hateful Memes Challengeのフェーズ2で4位になります。
論文 参考訳(メタデータ) (2020-12-23T18:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。