論文の概要: Data Poisoning Attacks Against Multimodal Encoders
- arxiv url: http://arxiv.org/abs/2209.15266v2
- Date: Mon, 5 Jun 2023 13:52:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 04:32:52.029662
- Title: Data Poisoning Attacks Against Multimodal Encoders
- Title(参考訳): マルチモーダルエンコーダに対するデータ中毒攻撃
- Authors: Ziqing Yang and Xinlei He and Zheng Li and Michael Backes and Mathias
Humbert and Pascal Berrang and Yang Zhang
- Abstract要約: 視覚と言語の両方において多モーダルモデルに対する中毒攻撃について検討する。
攻撃を緩和するため,前訓練と後訓練の両方の防御策を提案する。
- 参考スコア(独自算出の注目度): 24.02062380303139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, the newly emerged multimodal models, which leverage both visual and
linguistic modalities to train powerful encoders, have gained increasing
attention. However, learning from a large-scale unlabeled dataset also exposes
the model to the risk of potential poisoning attacks, whereby the adversary
aims to perturb the model's training data to trigger malicious behaviors in it.
In contrast to previous work, only poisoning visual modality, in this work, we
take the first step to studying poisoning attacks against multimodal models in
both visual and linguistic modalities. Specially, we focus on answering two
questions: (1) Is the linguistic modality also vulnerable to poisoning attacks?
and (2) Which modality is most vulnerable? To answer the two questions, we
propose three types of poisoning attacks against multimodal models. Extensive
evaluations on different datasets and model architectures show that all three
attacks can achieve significant attack performance while maintaining model
utility in both visual and linguistic modalities. Furthermore, we observe that
the poisoning effect differs between different modalities. To mitigate the
attacks, we propose both pre-training and post-training defenses. We
empirically show that both defenses can significantly reduce the attack
performance while preserving the model's utility.
- Abstract(参考訳): 近年、視覚と言語の両方のモダリティを利用して強力なエンコーダを訓練するマルチモーダルモデルが注目されている。
しかし、大規模なラベルのないデータセットから学習することで、モデルが潜在的な中毒攻撃のリスクに晒される可能性があるため、敵はモデルのトレーニングデータを混乱させ、悪意のある行動を引き起こすことを目指している。
これまでの研究とは対照的に, 視覚的モダリティに限って, 視覚的モダリティと言語的モダリティの両方において, マルチモーダルモデルに対する中毒攻撃を研究するための第一歩を踏み出した。
具体的には,(1) 言語的モダリティは毒殺攻撃にも弱いか,という2つの問いに答えることに焦点を当てる。
そして、(2)どのモダリティが最も脆弱か?
そこで本研究では,マルチモーダルモデルに対する3種類の毒殺攻撃を提案する。
さまざまなデータセットとモデルアーキテクチャに関する広範な評価は、視覚と言語の両方でモデルユーティリティを維持しながら、すべての3つの攻撃が重要な攻撃性能を達成できることを示している。
さらに, 中毒効果は, 異なる形態によって異なることが観察された。
攻撃を緩和するため,前訓練と後訓練の両方の防御策を提案する。
いずれの防御も,モデルの実用性を維持しつつ攻撃性能を著しく低下させることを実証的に示す。
関連論文リスト
- Universal Vulnerabilities in Large Language Models: Backdoor Attacks for
In-context Learning [15.03179582977345]
In-context Learningは、事前学習と微調整のギャップを埋めるパラダイムであり、いくつかのNLPタスクにおいて高い有効性を示している。
広く適用されているにもかかわらず、コンテキスト内学習は悪意のある攻撃に対して脆弱である。
我々は、コンテキスト内学習に基づく大規模言語モデルをターゲットに、ICLAttackという新しいバックドアアタック手法を設計する。
論文 参考訳(メタデータ) (2024-01-11T14:38:19Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Transferable Availability Poisoning Attacks [26.121144846352088]
我々は、機械学習モデルの総合的なテスト精度を低下させることを目的とした、アベイラビリティーデータ中毒攻撃について検討する。
既存の毒殺対策は攻撃目標を達成することができるが、被害者は敵が攻撃をマウントするために使用するものと同じ学習方法を採用すると仮定する。
本稿では, 勾配情報を交互に活用し, 高周波中毒を発生させるTransferable Poisoningを提案する。
論文 参考訳(メタデータ) (2023-10-08T12:22:50Z) - Investigating Human-Identifiable Features Hidden in Adversarial
Perturbations [54.39726653562144]
我々の研究では、最大5つの攻撃アルゴリズムを3つのデータセットにわたって探索する。
対人摂動における人間の識別可能な特徴を同定する。
画素レベルのアノテーションを用いて、そのような特徴を抽出し、ターゲットモデルに妥協する能力を実証する。
論文 参考訳(メタデータ) (2023-09-28T22:31:29Z) - Rethinking Model Ensemble in Transfer-based Adversarial Attacks [46.82830479910875]
転送可能性を改善する効果的な戦略は、モデルのアンサンブルを攻撃することである。
これまでの作業は、単に異なるモデルの出力を平均化するだけであった。
我々は、より移動可能な敵の例を生成するために、CWA(Common Weakness Attack)を提案する。
論文 参考訳(メタデータ) (2023-03-16T06:37:16Z) - Can Adversarial Examples Be Parsed to Reveal Victim Model Information? [60.42408040267338]
本研究では,データ固有の敵インスタンスから,データに依存しない被害者モデル(VM)情報を推測できるかどうかを問う。
我々は,135件の被害者モデルから生成された7種類の攻撃に対して,敵攻撃のデータセットを収集する。
単純な教師付きモデル解析ネットワーク(MPN)は、見えない敵攻撃からVM属性を推測できることを示す。
論文 参考訳(メタデータ) (2023-03-13T21:21:49Z) - Explain2Attack: Text Adversarial Attacks via Cross-Domain
Interpretability [18.92690624514601]
研究によると、下流のモデルは、トレーニングデータのような敵対的な入力で簡単に騙されるが、わずかに混乱している。
本稿では,テキスト分類タスクに対するブラックボックス攻撃であるExplain2Attackを提案する。
我々のフレームワークは、最先端モデルのアタックレートを達成または上回る一方、クエリコストの低減と効率の向上を図っている。
論文 参考訳(メタデータ) (2020-10-14T04:56:41Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - Two Sides of the Same Coin: White-box and Black-box Attacks for Transfer
Learning [60.784641458579124]
ホワイトボックスFGSM攻撃によるモデルロバスト性を効果的に向上することを示す。
また,移動学習モデルに対するブラックボックス攻撃手法を提案する。
ホワイトボックス攻撃とブラックボックス攻撃の双方の効果を系統的に評価するために,ソースモデルからターゲットモデルへの変換可能性の評価手法を提案する。
論文 参考訳(メタデータ) (2020-08-25T15:04:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。