論文の概要: Visual Adversarial Examples Jailbreak Large Language Models
- arxiv url: http://arxiv.org/abs/2306.13213v1
- Date: Thu, 22 Jun 2023 22:13:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 14:04:57.587607
- Title: Visual Adversarial Examples Jailbreak Large Language Models
- Title(参考訳): Visual Adversarial Examples Jailbreak Large Language Models
- Authors: Xiangyu Qi, Kaixuan Huang, Ashwinee Panda, Mengdi Wang, Prateek Mittal
- Abstract要約: 視覚入力空間の連続的・高次元的な性質は、本質的には敵攻撃の場となる。
単一の敵の例は一般的にMiniGPT-4の安全性を損なう可能性があり、幅広い有害な命令を処理できる。
我々は、包括的リスクアセスメント、堅牢な防衛戦略、責任あるプラクティスの実行に対する緊急の要求を強調します。
- 参考スコア(独自算出の注目度): 49.31260848940259
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been a surge of interest in introducing vision into Large
Language Models (LLMs). The proliferation of large Visual Language Models
(VLMs), such as Flamingo, BLIP-2, and GPT-4, signifies an exciting convergence
of advancements in both visual and language foundation models. Yet, the risks
associated with this integrative approach are largely unexamined. In this
paper, we shed light on the security and safety implications of this trend.
First, we underscore that the continuous and high-dimensional nature of the
additional visual input space intrinsically makes it a fertile ground for
adversarial attacks. This unavoidably expands the attack surfaces of LLMs.
Second, we highlight that the broad functionality of LLMs also presents visual
attackers with a wider array of achievable adversarial objectives, extending
the implications of security failures beyond mere misclassification. To
elucidate these risks, we study adversarial examples in the visual input space
of a VLM. Specifically, against MiniGPT-4, which incorporates safety mechanisms
that can refuse harmful instructions, we present visual adversarial examples
that can circumvent the safety mechanisms and provoke harmful behaviors of the
model. Remarkably, we discover that adversarial examples, even if optimized on
a narrow, manually curated derogatory corpus against specific social groups,
can universally jailbreak the model's safety mechanisms. A single such
adversarial example can generally undermine MiniGPT-4's safety, enabling it to
heed a wide range of harmful instructions and produce harmful content far
beyond simply imitating the derogatory corpus used in optimization. Unveiling
these risks, we accentuate the urgent need for comprehensive risk assessments,
robust defense strategies, and the implementation of responsible practices for
the secure and safe utilization of VLMs.
- Abstract(参考訳): 近年、大規模言語モデル(llm)にビジョンを導入することへの関心が高まっている。
Flamingo、BLIP-2、GPT-4のような大規模なビジュアル言語モデル(VLM)の普及は、視覚基盤モデルと言語基盤モデルの両方における進歩のエキサイティングな収束を意味している。
しかし、この統合的アプローチに関連するリスクは、ほとんど見当たらない。
本稿では,この傾向の安全性と安全性について概説する。
まず,視覚入力空間の連続的かつ高次元的性質が,本質的に敵の攻撃の場となることを強調する。
これはLLMの攻撃面を必然的に拡大する。
第二に、LLMの幅広い機能はまた、達成可能な敵の目的の広い視覚的攻撃者を示し、単なる誤分類以上のセキュリティ障害の影響を拡大する。
これらのリスクを解明するために,VLMの視覚入力空間における逆例について検討した。
具体的には,有害な指示を拒否する安全機構を組み込んだminigpt-4に対して,安全機構を回避し,モデルの有害な行動を引き起こすような視覚敵例を示す。
顕著なことに、特定の社会的グループに対して手作業で調整された排他的コーパスに最適化された敵例が、モデルの安全メカニズムを普遍的にジェイルブレイクすることを発見した。
そのような敵対的な一つの例は、一般にMiniGPT-4の安全性を損なう可能性があり、様々な有害な命令を処理し、最適化に使用される推論コーパスを単に模倣する以上の有害なコンテンツを生成できる。
これらのリスクを解消し、包括的リスク評価、堅牢な防衛戦略、VLMの安全かつ安全な利用のための責任ある実践の実施に対する緊急の要求を強調する。
関連論文リスト
- A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。
LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。
本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文 参考訳(メタデータ) (2024-07-10T06:57:58Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Safeguarding Vision-Language Models Against Patched Visual Prompt Injectors [31.383591942592467]
視覚言語モデル(VLM)は、視覚とテキストのデータを組み合わせて理解と相互作用を強化する革新的な方法を提供する。
パッチベースの敵攻撃は、物理的な視覚応用において最も現実的な脅威モデルと考えられている。
本研究では,スムージング技術に根ざした防御機構であるSmoothVLMを導入し,VLMをパッチ付き視覚プロンプトインジェクタの脅威から保護する。
論文 参考訳(メタデータ) (2024-05-17T04:19:19Z) - Adversarial Robustness for Visual Grounding of Multimodal Large Language Models [49.71757071535619]
MLLM(Multi-modal Large Language Models)は近年,様々な視覚言語タスクのパフォーマンス向上を実現している。
MLLMでは、視覚的グラウンドリングの対角的堅牢性は未発見のままである。
本稿では,次の3つの攻撃パラダイムを提案する。
論文 参考訳(メタデータ) (2024-05-16T10:54:26Z) - Survey of Vulnerabilities in Large Language Models Revealed by
Adversarial Attacks [5.860289498416911]
大規模言語モデル(LLM)はアーキテクチャと能力において急速に進歩しています。
複雑なシステムに深く統合されるにつれて、セキュリティ特性を精査する緊急性が高まっている。
本稿では,LSMに対する対人攻撃の新たな学際的分野について調査する。
論文 参考訳(メタデータ) (2023-10-16T21:37:24Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。