論文の概要: Safeguarding Vision-Language Models Against Patched Visual Prompt Injectors
- arxiv url: http://arxiv.org/abs/2405.10529v2
- Date: Sat, 24 Aug 2024 13:28:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 23:27:05.703559
- Title: Safeguarding Vision-Language Models Against Patched Visual Prompt Injectors
- Title(参考訳): パッチ付き視覚プロンプトインジェクタに対する視覚言語モデルの保護
- Authors: Jiachen Sun, Changsheng Wang, Jiongxiao Wang, Yiwei Zhang, Chaowei Xiao,
- Abstract要約: 視覚言語モデル(VLM)は、視覚とテキストのデータを組み合わせて理解と相互作用を強化する革新的な方法を提供する。
パッチベースの敵攻撃は、物理的な視覚応用において最も現実的な脅威モデルと考えられている。
本研究では,スムージング技術に根ざした防御機構であるSmoothVLMを導入し,VLMをパッチ付き視覚プロンプトインジェクタの脅威から保護する。
- 参考スコア(独自算出の注目度): 31.383591942592467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have become increasingly prominent, also signaling a shift towards multimodality as the next frontier in artificial intelligence, where their embeddings are harnessed as prompts to generate textual content. Vision-language models (VLMs) stand at the forefront of this advancement, offering innovative ways to combine visual and textual data for enhanced understanding and interaction. However, this integration also enlarges the attack surface. Patch-based adversarial attack is considered the most realistic threat model in physical vision applications, as demonstrated in many existing literature. In this paper, we propose to address patched visual prompt injection, where adversaries exploit adversarial patches to generate target content in VLMs. Our investigation reveals that patched adversarial prompts exhibit sensitivity to pixel-wise randomization, a trait that remains robust even against adaptive attacks designed to counteract such defenses. Leveraging this insight, we introduce SmoothVLM, a defense mechanism rooted in smoothing techniques, specifically tailored to protect VLMs from the threat of patched visual prompt injectors. Our framework significantly lowers the attack success rate to a range between 0% and 5.0% on two leading VLMs, while achieving around 67.3% to 95.0% context recovery of the benign images, demonstrating a balance between security and usability.
- Abstract(参考訳): 大規模言語モデルはますます顕著になり、人工知能の次のフロンティアとしてマルチモーダリティへのシフトを示唆している。
視覚言語モデル(VLM)はこの進歩の最前線にあり、視覚とテキストのデータを組み合わせて理解と相互作用を強化する革新的な方法を提供している。
しかし、この統合は攻撃面を拡大する。
パッチベースの敵攻撃は、既存の多くの文献で示されているように、物理的な視覚応用において最も現実的な脅威モデルと考えられている。
本稿では,VLMのターゲットコンテンツを生成するために,相手が相手のパッチを利用するようなパッチ付きビジュアルプロンプトインジェクションを提案する。
本研究は, 画素単位のランダム化に対して, パッチを施した対向性刺激が感受性を示すことを明らかにした。
この知見を活かして、スムージング技術に根ざした防御機構であるSmoothVLMを導入し、特に、パッチされた視覚的プロンプトインジェクタの脅威からVLMを保護するようにした。
我々のフレームワークは、2つの主要なVLMにおいて攻撃成功率を0%から5.0%の範囲に格段に低下させ、67.3%から95.0%のコンテキスト回復を実現し、セキュリティとユーザビリティのバランスを示す。
関連論文リスト
- Chain of Attack: On the Robustness of Vision-Language Models Against Transfer-Based Adversarial Attacks [34.40254709148148]
事前学習された視覚言語モデル(VLM)は、画像および自然言語理解において顕著な性能を示した。
彼らの潜在的な安全性と堅牢性の問題は、敵がシステムを回避し、悪意のある攻撃を通じて有害なコンテンツを生成することを懸念する。
本稿では,マルチモーダルなセマンティック・アップデートに基づいて,敵対的事例の生成を反復的に促進するアタック・チェーン(CoA)を提案する。
論文 参考訳(メタデータ) (2024-11-24T05:28:07Z) - Towards Adversarially Robust Vision-Language Models: Insights from Design Choices and Prompt Formatting Techniques [12.907116223796201]
VLM(Vision-Language Models)は、研究と現実世界の両方の応用が急増しているのを目撃している。
本研究は,画像ベース攻撃に対するVLMの対角的ロバスト性に対するモデル設計選択の影響を系統的に検討する。
論文 参考訳(メタデータ) (2024-07-15T18:00:01Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Adversarial Prompt Tuning for Vision-Language Models [86.5543597406173]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における画像エンコーダの対向ロバスト性を高める技術である。
我々は,AdvPTが白箱攻撃や黒箱攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで相乗効果を示すことを示した。
論文 参考訳(メタデータ) (2023-11-19T07:47:43Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。