論文の概要: Shadowcast: Stealthy Data Poisoning Attacks Against Vision-Language Models
- arxiv url: http://arxiv.org/abs/2402.06659v2
- Date: Mon, 14 Oct 2024 16:17:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:04:58.545557
- Title: Shadowcast: Stealthy Data Poisoning Attacks Against Vision-Language Models
- Title(参考訳): シャドウキャスト: ビジョンランゲージモデルに対する攻撃を強要する厳格なデータ
- Authors: Yuancheng Xu, Jiarui Yao, Manli Shu, Yanchao Sun, Zichu Wu, Ning Yu, Tom Goldstein, Furong Huang,
- Abstract要約: この研究は、Vision-Language Modelsのデータ中毒攻撃に対する感受性を明らかにするための第一歩となる。
そこで我々はShadowcastを紹介した。これは、毒のサンプルが良心的な画像と視覚的に区別できない、ステルスなデータ中毒攻撃である。
そこで我々は,シャドウキャストが50件の毒のサンプルを用いて攻撃者の意図を効果的に達成していることを示す。
- 参考スコア(独自算出の注目度): 73.37389786808174
- License:
- Abstract: Vision-Language Models (VLMs) excel in generating textual responses from visual inputs, but their versatility raises security concerns. This study takes the first step in exposing VLMs' susceptibility to data poisoning attacks that can manipulate responses to innocuous, everyday prompts. We introduce Shadowcast, a stealthy data poisoning attack where poison samples are visually indistinguishable from benign images with matching texts. Shadowcast demonstrates effectiveness in two attack types. The first is a traditional Label Attack, tricking VLMs into misidentifying class labels, such as confusing Donald Trump for Joe Biden. The second is a novel Persuasion Attack, leveraging VLMs' text generation capabilities to craft persuasive and seemingly rational narratives for misinformation, such as portraying junk food as healthy. We show that Shadowcast effectively achieves the attacker's intentions using as few as 50 poison samples. Crucially, the poisoned samples demonstrate transferability across different VLM architectures, posing a significant concern in black-box settings. Moreover, Shadowcast remains potent under realistic conditions involving various text prompts, training data augmentation, and image compression techniques. This work reveals how poisoned VLMs can disseminate convincing yet deceptive misinformation to everyday, benign users, emphasizing the importance of data integrity for responsible VLM deployments. Our code is available at: https://github.com/umd-huang-lab/VLM-Poisoning.
- Abstract(参考訳): VLM(Vision-Language Models)は、視覚入力からテキスト応答を生成するのに優れているが、その汎用性はセキュリティ上の懸念を引き起こす。
この研究は、無害で日常的なプロンプトに対する反応を操作できるデータ中毒攻撃に対するVLMの感受性を明らかにするための第一歩となる。
そこで我々はShadowcastを紹介した。これは、毒のサンプルが、一致するテキストの良質な画像と視覚的に区別できない、ステルスなデータ中毒攻撃である。
Shadowcastは2つの攻撃タイプで有効性を示す。
1つ目は伝統的なラベル攻撃で、VLMはジョー・バイデンのドナルド・トランプを混乱させるなど、クラスレーベルを誤認している。
2つ目は小説『説得攻撃』であり、VLMのテキスト生成能力を利用して、ジャンクフードを健康的なものとして描写するなど、偽情報に対する説得的で一見合理的な物語を作る。
そこで我々は,シャドウキャストが50件の毒のサンプルを用いて攻撃者の意図を効果的に達成していることを示す。
重要な点として、有毒なサンプルは異なるVLMアーキテクチャ間での転送可能性を示し、ブラックボックス設定に重大な懸念を呈している。
さらに、Shadowcastは、様々なテキストプロンプト、トレーニングデータ拡張、画像圧縮技術を含む現実的な条件下でも強力である。
この研究は、有毒なVLMが、説得力があるが欺く誤報を日々の良質なユーザーに広める方法を明らかにし、責任あるVLMデプロイメントにおけるデータの完全性の重要性を強調している。
私たちのコードは、https://github.com/umd-huang-lab/VLM-Poisoning.comで利用可能です。
関連論文リスト
- Adversarial Attacks on Multimodal Agents [73.97379283655127]
視覚対応言語モデル(VLM)は、現在、実環境でのアクションを可能にする自律的なマルチモーダルエージェントの構築に使用されている。
攻撃エージェントは、環境への限られたアクセスと知識により、以前の攻撃よりも困難であるにもかかわらず、マルチモーダルエージェントが新たな安全リスクを生じさせることを示す。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - The Victim and The Beneficiary: Exploiting a Poisoned Model to Train a Clean Model on Poisoned Data [4.9676716806872125]
バックドア攻撃は、ディープニューラルネットワーク(DNN)のトレーニングプロセスに深刻なセキュリティ上の脅威をもたらしている
The Victim and The Beneficiary (V&B) は有毒なモデルを利用して、余分な良性サンプルを使わずにクリーンなモデルを訓練する。
本フレームワークは,良質な試料の性能を維持しつつ,バックドア注入の防止と各種攻撃に対する堅牢化に有効である。
論文 参考訳(メタデータ) (2024-04-17T11:15:58Z) - ImgTrojan: Jailbreaking Vision-Language Models with ONE Image [40.55590043993117]
視覚言語モデル(VLM)に対する新しいジェイルブレイク攻撃を提案する。
トレーニングデータに有毒な(画像、テキスト)データペアを含めるシナリオが想定されます。
原文のキャプションを悪意のあるジェイルブレイクプロンプトに置き換えることにより、この手法は毒画像を用いてジェイルブレイク攻撃を行うことができる。
論文 参考訳(メタデータ) (2024-03-05T12:21:57Z) - Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks [62.34019142949628]
誤読テキストを画像に貼り付けるタイポグラフィーアタックは、CLIPのようなビジョンランゲージモデルの性能を損なうことが知られている。
我々は、LVLMが自身に対する攻撃を発生させる2つの新しい、より効果的なTextitSelf-Generated攻撃を導入する。
ベンチマークにより,自己生成攻撃が重大な脅威となり,LVLM(s)分類性能が最大33%低下することが判明した。
論文 参考訳(メタデータ) (2024-02-01T14:41:20Z) - From Trojan Horses to Castle Walls: Unveiling Bilateral Data Poisoning Effects in Diffusion Models [19.140908259968302]
我々は、BadNetsのようなデータ中毒法がDMによって直接的に生成を劣化させるかどうか検討する。
BadNetsのようなデータ中毒攻撃は、DMが誤画像を生成するのに依然として有効であることを示す。
被毒DMはトリガーの割合が増加しており、これはトリガー増幅と呼ばれる現象である」
論文 参考訳(メタデータ) (2023-11-04T11:00:31Z) - Nightshade: Prompt-Specific Poisoning Attacks on Text-to-Image Generative Models [26.301156075883483]
本研究は, 発生モデルにおいて, 毒殺攻撃が有効であることを示す。
我々は、最適化されたプロンプト特異的中毒攻撃であるNightshadeを紹介する。
我々は、Nightshade攻撃がテキスト・ツー・イメージ生成モデルにおける一般的な特徴を不安定にすることができることを示す。
論文 参考訳(メタデータ) (2023-10-20T21:54:10Z) - Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。
5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。
この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文 参考訳(メタデータ) (2023-10-04T16:39:31Z) - Adversarial Examples Make Strong Poisons [55.63469396785909]
従来は訓練済みのモデルに対する攻撃を意図していた敵の例は,近年の毒殺に特化して設計された手法よりも,データ中毒に有効であることを示す。
また,本手法は,データセットのセキュアなリリースにおいて,既存の中毒法よりも極めて効果的である。
論文 参考訳(メタデータ) (2021-06-21T01:57:14Z) - Defening against Adversarial Denial-of-Service Attacks [0.0]
データ中毒は、機械学習とデータ駆動技術に対する最も関連するセキュリティ脅威の1つです。
我々は,dos有毒なインスタンスを検出する新しい手法を提案する。
2つのdos毒殺攻撃と7つのデータセットに対する我々の防御を評価し、毒殺事例を確実に特定できることを確認します。
論文 参考訳(メタデータ) (2021-04-14T09:52:36Z) - Witches' Brew: Industrial Scale Data Poisoning via Gradient Matching [56.280018325419896]
Data Poisoning攻撃は、トレーニングデータを変更して、そのようなデータでトレーニングされたモデルを悪意を持って制御する。
我々は「スクラッチから」と「クリーンラベルから」の両方である特に悪意のある毒物攻撃を分析します。
フルサイズで有毒なImageNetデータセットをスクラッチからトレーニングした現代のディープネットワークにおいて、ターゲットの誤分類を引き起こすのは、これが初めてであることを示す。
論文 参考訳(メタデータ) (2020-09-04T16:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。