論文の概要: Visual Adversarial Examples Jailbreak Large Language Models
- arxiv url: http://arxiv.org/abs/2306.13213v1
- Date: Thu, 22 Jun 2023 22:13:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 14:04:57.587607
- Title: Visual Adversarial Examples Jailbreak Large Language Models
- Title(参考訳): Visual Adversarial Examples Jailbreak Large Language Models
- Authors: Xiangyu Qi, Kaixuan Huang, Ashwinee Panda, Mengdi Wang, Prateek Mittal
- Abstract要約: 視覚入力空間の連続的・高次元的な性質は、本質的には敵攻撃の場となる。
単一の敵の例は一般的にMiniGPT-4の安全性を損なう可能性があり、幅広い有害な命令を処理できる。
我々は、包括的リスクアセスメント、堅牢な防衛戦略、責任あるプラクティスの実行に対する緊急の要求を強調します。
- 参考スコア(独自算出の注目度): 49.31260848940259
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been a surge of interest in introducing vision into Large
Language Models (LLMs). The proliferation of large Visual Language Models
(VLMs), such as Flamingo, BLIP-2, and GPT-4, signifies an exciting convergence
of advancements in both visual and language foundation models. Yet, the risks
associated with this integrative approach are largely unexamined. In this
paper, we shed light on the security and safety implications of this trend.
First, we underscore that the continuous and high-dimensional nature of the
additional visual input space intrinsically makes it a fertile ground for
adversarial attacks. This unavoidably expands the attack surfaces of LLMs.
Second, we highlight that the broad functionality of LLMs also presents visual
attackers with a wider array of achievable adversarial objectives, extending
the implications of security failures beyond mere misclassification. To
elucidate these risks, we study adversarial examples in the visual input space
of a VLM. Specifically, against MiniGPT-4, which incorporates safety mechanisms
that can refuse harmful instructions, we present visual adversarial examples
that can circumvent the safety mechanisms and provoke harmful behaviors of the
model. Remarkably, we discover that adversarial examples, even if optimized on
a narrow, manually curated derogatory corpus against specific social groups,
can universally jailbreak the model's safety mechanisms. A single such
adversarial example can generally undermine MiniGPT-4's safety, enabling it to
heed a wide range of harmful instructions and produce harmful content far
beyond simply imitating the derogatory corpus used in optimization. Unveiling
these risks, we accentuate the urgent need for comprehensive risk assessments,
robust defense strategies, and the implementation of responsible practices for
the secure and safe utilization of VLMs.
- Abstract(参考訳): 近年、大規模言語モデル(llm)にビジョンを導入することへの関心が高まっている。
Flamingo、BLIP-2、GPT-4のような大規模なビジュアル言語モデル(VLM)の普及は、視覚基盤モデルと言語基盤モデルの両方における進歩のエキサイティングな収束を意味している。
しかし、この統合的アプローチに関連するリスクは、ほとんど見当たらない。
本稿では,この傾向の安全性と安全性について概説する。
まず,視覚入力空間の連続的かつ高次元的性質が,本質的に敵の攻撃の場となることを強調する。
これはLLMの攻撃面を必然的に拡大する。
第二に、LLMの幅広い機能はまた、達成可能な敵の目的の広い視覚的攻撃者を示し、単なる誤分類以上のセキュリティ障害の影響を拡大する。
これらのリスクを解明するために,VLMの視覚入力空間における逆例について検討した。
具体的には,有害な指示を拒否する安全機構を組み込んだminigpt-4に対して,安全機構を回避し,モデルの有害な行動を引き起こすような視覚敵例を示す。
顕著なことに、特定の社会的グループに対して手作業で調整された排他的コーパスに最適化された敵例が、モデルの安全メカニズムを普遍的にジェイルブレイクすることを発見した。
そのような敵対的な一つの例は、一般にMiniGPT-4の安全性を損なう可能性があり、様々な有害な命令を処理し、最適化に使用される推論コーパスを単に模倣する以上の有害なコンテンツを生成できる。
これらのリスクを解消し、包括的リスク評価、堅牢な防衛戦略、VLMの安全かつ安全な利用のための責任ある実践の実施に対する緊急の要求を強調する。
関連論文リスト
- Revisiting the Adversarial Robustness of Vision Language Models: a Multimodal Perspective [32.42201363966808]
マルチモーダル攻撃下での対角的ロバスト性に対する視覚言語モデルの適用について検討する。
本研究は,マルチモーダル・コントラッシブ・コントラスト・トレーニング・ロスを提案し,クリーン・アトラッシブ・テキストの埋め込みと,その逆・クリーンな視覚的特徴との整合性を示す。
2つのタスクにまたがる15のデータセットの実験により、我々の手法はCLIPの対角的堅牢性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-04-30T06:34:21Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - Exploring the Adversarial Capabilities of Large Language Models [25.7847594292453]
大きな言語モデル(LLM)は、良心的なサンプルから敵の例を作れば、既存の安全なレールを騙すことができる。
我々の実験は、ヘイトスピーチ検出に焦点をあて、LLMが敵の摂動を見つけることに成功し、ヘイトスピーチ検出システムを効果的に損なうことを示した。
論文 参考訳(メタデータ) (2024-02-14T12:28:38Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Adversarial Prompt Tuning for Vision-Language Models [90.89469048482249]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における画像エンコーダの対向ロバスト性を高める技術である。
我々は,AdvPTが白箱攻撃や黒箱攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで相乗効果を示すことを示した。
論文 参考訳(メタデータ) (2023-11-19T07:47:43Z) - Survey of Vulnerabilities in Large Language Models Revealed by
Adversarial Attacks [5.860289498416911]
大規模言語モデル(LLM)はアーキテクチャと能力において急速に進歩しています。
複雑なシステムに深く統合されるにつれて、セキュリティ特性を精査する緊急性が高まっている。
本稿では,LSMに対する対人攻撃の新たな学際的分野について調査する。
論文 参考訳(メタデータ) (2023-10-16T21:37:24Z) - Jailbreak and Guard Aligned Language Models with Only Few In-Context Demonstrations [32.58214897368031]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な成功を収めてきたが、それらの安全性と有害なコンテンツを生成する可能性への懸念が浮上している。
我々は,LSMを倒すために戦略的に構築された有害なデモンストレーションを取り入れたインコンテキストアタック(ICA)と,有害な応答の生成を拒否する事例を通じてモデルレジリエンスを活性化するインコンテキストディフェンス(ICD)を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:50:29Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。