論文の概要: A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can
Fool Large Language Models Easily
- arxiv url: http://arxiv.org/abs/2311.08268v1
- Date: Tue, 14 Nov 2023 16:02:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 13:22:45.373506
- Title: A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can
Fool Large Language Models Easily
- Title(参考訳): 羊の服を着たオオカミ:ネストした脱獄プロンプトは大きな言語モデルを簡単に騙す
- Authors: Peng Ding, Jun Kuang, Dan Ma, Xuezhi Cao, Yunsen Xian, Jiajun Chen,
Shujian Huang
- Abstract要約: 大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
- 参考スコア(独自算出の注目度): 54.21991825128219
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs), such as ChatGPT and GPT-4, are designed to
provide useful and safe responses. However, adversarial prompts known as
'jailbreaks' can circumvent safeguards, leading LLMs to generate harmful
content. Exploring jailbreak prompts can help to better reveal the weaknesses
of LLMs and further steer us to secure them. Unfortunately, existing jailbreak
methods either suffer from intricate manual design or require optimization on
another white-box model, compromising generalization or jailbreak efficiency.
In this paper, we generalize jailbreak prompt attacks into two aspects: (1)
Prompt Rewriting and (2) Scenario Nesting. Based on this, we propose ReNeLLM,
an automatic framework that leverages LLMs themselves to generate effective
jailbreak prompts. Extensive experiments demonstrate that ReNeLLM significantly
improves the attack success rate while greatly reducing the time cost compared
to existing baselines. Our study also reveals the inadequacy of current defense
methods in safeguarding LLMs. Finally, we offer detailed analysis and
discussion from the perspective of prompt execution priority on the failure of
LLMs' defense. We hope that our research can catalyze both the academic
community and LLMs vendors towards the provision of safer and more regulated
Large Language Models.
- Abstract(参考訳): ChatGPTやGPT-4のような大規模言語モデル(LLM)は、有用で安全な応答を提供するように設計されている。
しかし、"jailbreaks"と呼ばれる敵のプロンプトは保護を回避し、LSMは有害な内容を生成する。
ジェイルブレイクのプロンプトを探索することは、LSMの弱点を明らかにするのに役立ちます。
残念ながら、既存のjailbreakメソッドは複雑な手動設計に悩まされるか、別のホワイトボックスモデルの最適化を必要とするか、一般化やjailbreak効率を損なう。
本稿では,(1)プロンプトリライトと(2)シナリオネスティングの2つの側面にジェイルブレイク即時攻撃を一般化する。
そこで本研究では,LDM自体を利用して効果的なジェイルブレイクプロンプトを生成する自動フレームワークReNeLLMを提案する。
大規模な実験により、ReNeLLMは攻撃成功率を大幅に改善し、既存のベースラインと比較して時間コストを大幅に削減することが示された。
また,LLMの保護における現在の防御方法の欠如も明らかにした。
最後に,LLMの防御の失敗に対する迅速な実行優先の観点から,詳細な分析と議論を行う。
我々の研究は、より安全で規制された大規模言語モデルの提供に向けて、学術コミュニティとLLMベンダーの両方を触媒できることを期待しています。
関連論文リスト
- SQL Injection Jailbreak: a structural disaster of large language models [71.55108680517422]
LLMによる入力プロンプトの構築を利用して、ユーザプロンプトにジェイルブレイク情報を注入する新しいジェイルブレイク手法を提案する。
提案手法は,AdvBench の文脈でよく知られた5つのオープンソース LLM に対する攻撃成功率を約100% 達成する。
論文 参考訳(メタデータ) (2024-11-03T13:36:34Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing [14.094372002702476]
大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。
近年の研究では、LSMは故意に構築された敵のプロンプトに弱いことが示されている。
そこで本研究では,新しい防衛手法である textbfLayer-specific textbfEditing (LED) を提案する。
論文 参考訳(メタデータ) (2024-05-28T13:26:12Z) - Defending LLMs against Jailbreaking Attacks via Backtranslation [61.878363293735624]
「我々は、バックトランスレーションによる脱獄攻撃からLLMを守る新しい方法を提案する。」
推測されたプロンプトは、元のプロンプトの実際の意図を明らかにする傾向にある、逆転プロンプトと呼ばれる。
我々は、我々の防衛がベースラインを大幅に上回っていることを実証的に実証した。
論文 参考訳(メタデータ) (2024-02-26T10:03:33Z) - LLMs Can Defend Themselves Against Jailbreaking in a Practical Manner: A
Vision Paper [16.078682415975337]
Jailbreakingは、既成の大規模言語モデル(LLM)に配置された安全アライメントをバイパスする、新たな敵攻撃である。
本稿では,SELFDEFENDと呼ばれる軽量で実用的な防御手法を提案する。
jailbreakプロンプトが最小限の遅延と、通常のユーザプロンプトが無視できる遅延で、既存のjailbreak攻撃を防げます。
論文 参考訳(メタデータ) (2024-02-24T05:34:43Z) - Analyzing the Inherent Response Tendency of LLMs: Real-World
Instructions-Driven Jailbreak [26.741029482196534]
大規模言語モデル(LLM)が悪意ある指示に直面すると有害な応答を発生させる現象である。
本稿では,LDMのポテンシャルを増幅することでセキュリティ機構をバイパスし,肯定応答を生成する新しい自動ジェイルブレイク手法RADIALを提案する。
提案手法は,5つのオープンソースのLLMを用いて,英語の悪意のある命令に対する攻撃性能を良好に向上すると同時に,中国語の悪意のある命令に対するクロス言語攻撃の実行において,堅牢な攻撃性能を維持する。
論文 参考訳(メタデータ) (2023-12-07T08:29:58Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。