論文の概要: Shadowcast: Stealthy Data Poisoning Attacks Against Vision-Language
Models
- arxiv url: http://arxiv.org/abs/2402.06659v1
- Date: Mon, 5 Feb 2024 18:55:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-18 13:55:00.419046
- Title: Shadowcast: Stealthy Data Poisoning Attacks Against Vision-Language
Models
- Title(参考訳): shadowcast:視覚言語モデルに対するステルスなデータ中毒攻撃
- Authors: Yuancheng Xu, Jiarui Yao, Manli Shu, Yanchao Sun, Zichu Wu, Ning Yu,
Tom Goldstein, Furong Huang
- Abstract要約: この研究は、Vision-Language Modelsのデータ中毒攻撃に対する感受性を明らかにするための第一歩となる。
筆者らは,毒のサンプルが良性画像と視覚的に区別できないステルスなデータ中毒攻撃法であるShadowcastを紹介した。
その結果,シャドウキャストは攻撃者の意図を50件の毒素サンプルを用いて達成する上で極めて有効であることが判明した。
- 参考スコア(独自算出の注目度): 76.53412677560546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) excel in generating textual responses from
visual inputs, yet their versatility raises significant security concerns. This
study takes the first step in exposing VLMs' susceptibility to data poisoning
attacks that can manipulate responses to innocuous, everyday prompts. We
introduce Shadowcast, a stealthy data poisoning attack method where poison
samples are visually indistinguishable from benign images with matching texts.
Shadowcast demonstrates effectiveness in two attack types. The first is Label
Attack, tricking VLMs into misidentifying class labels, such as confusing
Donald Trump for Joe Biden. The second is Persuasion Attack, which leverages
VLMs' text generation capabilities to craft narratives, such as portraying junk
food as health food, through persuasive and seemingly rational descriptions. We
show that Shadowcast are highly effective in achieving attacker's intentions
using as few as 50 poison samples. Moreover, these poison samples remain
effective across various prompts and are transferable across different VLM
architectures in the black-box setting. This work reveals how poisoned VLMs can
generate convincing yet deceptive misinformation and underscores the importance
of data quality for responsible deployments of VLMs. Our code is available at:
https://github.com/umd-huang-lab/VLM-Poisoning.
- Abstract(参考訳): VLM(Vision-Language Models)は、視覚入力からテキスト応答を生成するのに優れているが、その汎用性は重大なセキュリティ上の懸念を引き起こす。
この研究は、無害で日常的なプロンプトに対する反応を操作できるデータ中毒攻撃に対するVLMの感受性を明らかにするための第一歩となる。
筆者はshadowcast(シャドウキャスト)というステルスなデータ中毒攻撃手法を紹介している。
Shadowcastは2つの攻撃タイプで有効性を示す。
例えば、ジョー・バイデン(Joe Biden)のドナルド・トランプ(Donald Trump)を混乱させるようなものだ。
2つ目は説得攻撃(Persuasion Attack)で、これはVLMのテキスト生成能力を活用して、説得的で一見合理的な説明を通じて、ジャンクフードを健康食品として描写するなどの物語を作る。
シャドウキャストは50以上の毒物サンプルを用いて攻撃者の意図を達成するのに非常に効果的であることを示す。
さらに、これらの毒のサンプルは様々なプロンプトで有効であり、ブラックボックス設定で異なるVLMアーキテクチャで転送可能である。
この研究は、有毒なVLMがいかに説得力のある偽情報を生成するかを明らかにし、VLMのデプロイに責任のあるデータ品質の重要性を浮き彫りにする。
私たちのコードは、https://github.com/umd-huang-lab/VLM-Poisoning.comで利用可能です。
関連論文リスト
- Adversarial Attacks on Multimodal Agents [73.97379283655127]
視覚対応言語モデル(VLM)は、現在、実環境でのアクションを可能にする自律的なマルチモーダルエージェントの構築に使用されている。
攻撃エージェントは、環境への限られたアクセスと知識により、以前の攻撃よりも困難であるにもかかわらず、マルチモーダルエージェントが新たな安全リスクを生じさせることを示す。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - The Victim and The Beneficiary: Exploiting a Poisoned Model to Train a Clean Model on Poisoned Data [4.9676716806872125]
バックドア攻撃は、ディープニューラルネットワーク(DNN)のトレーニングプロセスに深刻なセキュリティ上の脅威をもたらしている
The Victim and The Beneficiary (V&B) は有毒なモデルを利用して、余分な良性サンプルを使わずにクリーンなモデルを訓練する。
本フレームワークは,良質な試料の性能を維持しつつ,バックドア注入の防止と各種攻撃に対する堅牢化に有効である。
論文 参考訳(メタデータ) (2024-04-17T11:15:58Z) - ImgTrojan: Jailbreaking Vision-Language Models with ONE Image [40.55590043993117]
視覚言語モデル(VLM)に対する新しいジェイルブレイク攻撃を提案する。
トレーニングデータに有毒な(画像、テキスト)データペアを含めるシナリオが想定されます。
原文のキャプションを悪意のあるジェイルブレイクプロンプトに置き換えることにより、この手法は毒画像を用いてジェイルブレイク攻撃を行うことができる。
論文 参考訳(メタデータ) (2024-03-05T12:21:57Z) - Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks [62.34019142949628]
誤読テキストを画像に貼り付けるタイポグラフィーアタックは、CLIPのようなビジョンランゲージモデルの性能を損なうことが知られている。
我々は、LVLMが自身に対する攻撃を発生させる2つの新しい、より効果的なTextitSelf-Generated攻撃を導入する。
ベンチマークにより,自己生成攻撃が重大な脅威となり,LVLM(s)分類性能が最大33%低下することが判明した。
論文 参考訳(メタデータ) (2024-02-01T14:41:20Z) - From Trojan Horses to Castle Walls: Unveiling Bilateral Data Poisoning Effects in Diffusion Models [19.140908259968302]
我々は、BadNetsのようなデータ中毒法がDMによって直接的に生成を劣化させるかどうか検討する。
BadNetsのようなデータ中毒攻撃は、DMが誤画像を生成するのに依然として有効であることを示す。
被毒DMはトリガーの割合が増加しており、これはトリガー増幅と呼ばれる現象である」
論文 参考訳(メタデータ) (2023-11-04T11:00:31Z) - Nightshade: Prompt-Specific Poisoning Attacks on Text-to-Image Generative Models [26.301156075883483]
本研究は, 発生モデルにおいて, 毒殺攻撃が有効であることを示す。
我々は、最適化されたプロンプト特異的中毒攻撃であるNightshadeを紹介する。
我々は、Nightshade攻撃がテキスト・ツー・イメージ生成モデルにおける一般的な特徴を不安定にすることができることを示す。
論文 参考訳(メタデータ) (2023-10-20T21:54:10Z) - Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。
5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。
この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文 参考訳(メタデータ) (2023-10-04T16:39:31Z) - Adversarial Examples Make Strong Poisons [55.63469396785909]
従来は訓練済みのモデルに対する攻撃を意図していた敵の例は,近年の毒殺に特化して設計された手法よりも,データ中毒に有効であることを示す。
また,本手法は,データセットのセキュアなリリースにおいて,既存の中毒法よりも極めて効果的である。
論文 参考訳(メタデータ) (2021-06-21T01:57:14Z) - Poison Attacks against Text Datasets with Conditional Adversarially
Regularized Autoencoder [78.01180944665089]
本稿では,自然言語推論(NLI)とテキスト分類システムにおいて致命的な脆弱性を示す。
我々はNLPモデルに対する「バックドア中毒」攻撃を提示する。
論文 参考訳(メタデータ) (2020-10-06T13:03:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。