論文の概要: Image Hijacking: Adversarial Images can Control Generative Models at
Runtime
- arxiv url: http://arxiv.org/abs/2309.00236v1
- Date: Fri, 1 Sep 2023 03:53:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 14:29:30.169775
- Title: Image Hijacking: Adversarial Images can Control Generative Models at
Runtime
- Title(参考訳): 画像ハイジャック: 逆画像は実行時に生成モデルを制御することができる
- Authors: Luke Bailey, Euan Ong, Stuart Russell, Scott Emmons
- Abstract要約: 本研究は視覚言語モデル(VLM)への画像入力に焦点を当てる。
我々は、実行時に生成モデルを制御する画像ハイジャック、逆画像を発見する。
CLIPおよびLLaMA-2に基づく最先端のVLMであるLLaVA-2に対するこれらの攻撃について検討し、我々の攻撃タイプが90%以上の成功率であることを確認した。
- 参考スコア(独自算出の注目度): 9.3983793982447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Are foundation models secure from malicious actors? In this work, we focus on
the image input to a vision-language model (VLM). We discover image hijacks,
adversarial images that control generative models at runtime. We introduce
Behavior Matching, a general method for creating image hijacks, and we use it
to explore three types of attacks. Specific string attacks generate arbitrary
output of the adversary's choosing. Leak context attacks leak information from
the context window into the output. Jailbreak attacks circumvent a model's
safety training. We study these attacks against LLaVA-2, a state-of-the-art VLM
based on CLIP and LLaMA-2, and find that all our attack types have above a 90\%
success rate. Moreover, our attacks are automated and require only small image
perturbations. These findings raise serious concerns about the security of
foundation models. If image hijacks are as difficult to defend against as
adversarial examples in CIFAR-10, then it might be many years before a solution
is found -- if it even exists.
- Abstract(参考訳): 基礎モデルは悪意のあるアクターから安全か?
本研究では,視覚言語モデル(VLM)への画像入力に着目した。
我々は、実行時に生成モデルを制御する画像ハイジャック、逆画像を発見する。
我々は,イメージハイジャックを作成する一般的な手法であるビヘイビアマッチングを導入し,それを用いて3種類の攻撃を探索する。
特定の文字列攻撃は、敵の選択の任意の出力を生成する。
リークコンテキスト攻撃は、コンテキストウィンドウから出力に情報をリークする。
ジェイルブレイク攻撃はモデルの安全訓練を回避します。
CLIPおよびLLaMA-2に基づく最先端のVLMであるLLaVA-2に対するこれらの攻撃について検討し、我々の攻撃タイプが90%以上成功していることを確認した。
さらに、攻撃は自動化され、小さな画像の摂動のみを必要とする。
これらの知見は、基礎モデルの安全性に対する深刻な懸念を引き起こす。
もし画像ハイジャックがCIFAR-10の敵の例と同じくらい防御が難しいなら、解が見つかるまでには何年もかかるかもしれない。
関連論文リスト
- Typographic Attacks in a Multi-Image Setting [2.9154316123656927]
タイポグラフィー攻撃の研究のためのマルチイメージ設定を提案する。
具体的には、アタッククエリを繰り返すことなく、イメージセットをアタックすることに重点を置いています。
対象画像の難易度,攻撃テキストの強度,テキスト画像の類似性を活用し,マルチイメージ設定のための2つの攻撃戦略を導入する。
論文 参考訳(メタデータ) (2025-02-12T08:10:25Z) - `Do as I say not as I do': A Semi-Automated Approach for Jailbreak Prompt Attack against Multimodal LLMs [6.151779089440453]
マルチモーダル大言語モデル(LLM)に対する最初の音声ベースのジェイルブレイク攻撃を導入する。
本稿では,不許可なプロンプトを,良心的かつ物語駆動的なプロンプトによって側面に配置する,新たな戦略を提案する。
我々は、Flanking Attackは最先端のLLMを操作でき、不整合および禁止された出力を生成することを実証する。
論文 参考訳(メタデータ) (2025-02-02T10:05:08Z) - AnyAttack: Targeted Adversarial Attacks on Vision-Language Models toward Any Images [41.044385916368455]
我々は、ラベル管理なしでビジョンランゲージモデルに対してターゲットとなる敵画像を生成する自己教師型フレームワークであるAnyAttackを提案する。
我々のフレームワークは、大規模LAION-400Mデータセットで事前学習された逆雑音発生器を用いて、事前学習と微調整のパラダイムを採用している。
論文 参考訳(メタデータ) (2024-10-07T09:45:18Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - VQAttack: Transferable Adversarial Attacks on Visual Question Answering
via Pre-trained Models [58.21452697997078]
本稿では,画像とテキストの摂動を設計モジュールで生成できる新しいVQAttackモデルを提案する。
5つの検証モデルを持つ2つのVQAデータセットの実験結果は、提案したVQAttackの有効性を示す。
論文 参考訳(メタデータ) (2024-02-16T21:17:42Z) - Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks [58.10730906004818]
画像に誤解を招くテキストを追加するタイポグラフィー攻撃は、視覚言語モデル(LVLM)を欺くことができる
実験の結果,これらの攻撃は分類性能を最大60%低下させることがわかった。
論文 参考訳(メタデータ) (2024-02-01T14:41:20Z) - InstructTA: Instruction-Tuned Targeted Attack for Large Vision-Language Models [13.21813503235793]
大規模視覚言語モデル(LVLM)は、画像理解と応答生成において、その驚くべき能力を示した。
本稿では,被害者LVLMの視覚エンコーダのみを敵が知ることのできる,新規で実用的な攻撃シナリオを定式化する。
本研究では,LVLMに対して高い転送性を有する目標対向攻撃を実現するために,命令調整型ターゲットアタック(dubed textscInstructTA)を提案する。
論文 参考訳(メタデータ) (2023-12-04T13:40:05Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z) - Fooling Contrastive Language-Image Pre-trained Models with CLIPMasterPrints [15.643898659673036]
汎用性にも拘わらず、CLIPモデルは、マスタイメージをだますものとして、私たちが言うものに対して脆弱であることを示す。
フーリングマスターイメージは、CLIPモデルの信頼性スコアを最大化し、広範囲に変化するプロンプトのかなりの数に設定することができる。
私たちはCLIPMasterPrintsのマスターイメージが、勾配降下、投影降下、ブラックボックス最適化によってどのようにマイニングされるかを実証する。
論文 参考訳(メタデータ) (2023-07-07T18:54:11Z) - Dual Manifold Adversarial Robustness: Defense against Lp and non-Lp
Adversarial Attacks [154.31827097264264]
敵の訓練は、境界Lpノルムを持つ攻撃脅威モデルに対する一般的な防衛戦略である。
本稿では,2次元マニフォールド逆行訓練(DMAT)を提案する。
我々のDMATは、通常の画像の性能を改善し、Lp攻撃に対する標準的な敵の訓練と同等の堅牢性を達成する。
論文 参考訳(メタデータ) (2020-09-05T06:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。