論文の概要: Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts
- arxiv url: http://arxiv.org/abs/2311.09127v1
- Date: Wed, 15 Nov 2023 17:17:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 15:08:05.256350
- Title: Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts
- Title(参考訳): システムプロンプトによる自己逆攻撃によるGPT-4Vの脱獄
- Authors: Yuanwei Wu, Xiang Li, Yixin Liu, Pan Zhou and Lichao Sun
- Abstract要約: GPT-4Vでは,システムに侵入する脆弱性が発見された。
GPT-4を自身に対するレッド・チーム・ツールとして活用することで、盗難システムプロンプトを利用した脱獄プロンプトの可能性を探索することを目指している。
また,システムプロンプトの変更による脱獄攻撃に対する防御効果も評価した。
- 参考スコア(独自算出の注目度): 64.60375604495883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing work on jailbreak Multimodal Large Language Models (MLLMs) has
focused primarily on adversarial examples in model inputs, with less attention
to vulnerabilities in model APIs. To fill the research gap, we carry out the
following work: 1) We discover a system prompt leakage vulnerability in GPT-4V.
Through carefully designed dialogue, we successfully steal the internal system
prompts of GPT-4V. This finding indicates potential exploitable security risks
in MLLMs; 2)Based on the acquired system prompts, we propose a novel MLLM
jailbreaking attack method termed SASP (Self-Adversarial Attack via System
Prompt). By employing GPT-4 as a red teaming tool against itself, we aim to
search for potential jailbreak prompts leveraging stolen system prompts.
Furthermore, in pursuit of better performance, we also add human modification
based on GPT-4's analysis, which further improves the attack success rate to
98.7\%; 3) We evaluated the effect of modifying system prompts to defend
against jailbreaking attacks. Results show that appropriately designed system
prompts can significantly reduce jailbreak success rates. Overall, our work
provides new insights into enhancing MLLM security, demonstrating the important
role of system prompts in jailbreaking, which could be leveraged to greatly
facilitate jailbreak success rates while also holding the potential for
defending against jailbreaks.
- Abstract(参考訳): 既存のJailbreak Multimodal Large Language Models (MLLM)の研究は、主にモデルインプットの逆例に焦点を当てており、モデルAPIの脆弱性にはあまり注目していない。
研究のギャップを埋めるために,1) GPT-4Vでシステムに侵入する脆弱性を発見する。
慎重に設計された対話を通して、GPT-4Vの内部システムプロンプトを盗むことに成功した。
2) 取得したシステムプロンプトに基づき,sasp(self-adversarial attack via system prompt)と呼ばれる新しいmllm脱獄攻撃手法を提案する。
gpt-4をレッドチームツールとして利用することで、盗難システムプロンプトを利用したジェイルブレイクプロンプトの可能性を探そうとしている。
さらに, GPT-4の分析に基づく人為的な修正を加え, 攻撃成功率を98.7\%に向上させるとともに, システムプロンプトの変更による脱獄攻撃に対する防御効果を評価した。
その結果、適切に設計されたシステムプロンプトはジェイルブレイクの成功率を大幅に削減できることがわかった。
全体として、我々の研究はmllmのセキュリティ強化に関する新たな洞察を提供し、脱獄におけるシステムプロンプトの重要な役割を実証している。
関連論文リスト
- EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。
Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。
10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文 参考訳(メタデータ) (2024-03-18T18:39:53Z) - LLMs Can Defend Themselves Against Jailbreaking in a Practical Manner: A
Vision Paper [16.078682415975337]
Jailbreakingは、既成の大規模言語モデル(LLM)に配置された安全アライメントをバイパスする、新たな敵攻撃である。
本稿では,SELFDEFENDと呼ばれる軽量で実用的な防御手法を提案する。
jailbreakプロンプトが最小限の遅延と、通常のユーザプロンプトが無視できる遅延で、既存のjailbreak攻撃を防げます。
論文 参考訳(メタデータ) (2024-02-24T05:34:43Z) - Pandora: Jailbreak GPTs by Retrieval Augmented Generation Poisoning [19.45092401994873]
本研究では,大規模言語モデル(LLM)に対する間接的ジェイルブレイク攻撃について検討する。
本稿では,新たな攻撃ベクトルRetrieval Augmented Generation Poisoningを紹介する。
Pandoraは、即座に操作することでLCMとRAGのシナジーを利用して、予期せぬ応答を生成する。
論文 参考訳(メタデータ) (2024-02-13T12:40:39Z) - Comprehensive Assessment of Jailbreak Attacks Against LLMs [28.58973312098698]
4つのカテゴリから13の最先端ジェイルブレイク法,16の違反カテゴリから160の質問,6つの人気のあるLDMについて検討した。
実験の結果, 最適化されたジェイルブレイクは高い攻撃成功率を確実に達成することが示された。
攻撃性能と効率のトレードオフについて論じるとともに、脱獄プロンプトの転送性は依然として維持可能であることを示す。
論文 参考訳(メタデータ) (2024-02-08T13:42:50Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [102.17459476527233]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
これらの脆弱性を特定するために,PAIR(Prompt Automatic Iterative Refinement)を提案する。
PAIRは、LCMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z) - "Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak
Prompts on Large Language Models [28.72197050927338]
6ヶ月で4つのプラットフォームから6,387件のプロンプトを収集した。
我々は,ジェイルブレイクプロンプトの特異な特徴と,インジェクションや特権エスカレーションなどの主要な攻撃戦略を発見する。
実験の結果,現行のLLMとセーフガードは,すべてのシナリオにおいて,ジェイルブレイクのプロンプトを適切に防御できないことがわかった。
論文 参考訳(メタデータ) (2023-08-07T16:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。