論文の概要: GPT-4 Jailbreaks Itself with Near-Perfect Success Using Self-Explanation
- arxiv url: http://arxiv.org/abs/2405.13077v1
- Date: Tue, 21 May 2024 03:16:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 04:22:11.878170
- Title: GPT-4 Jailbreaks Itself with Near-Perfect Success Using Self-Explanation
- Title(参考訳): GPT-4、自己説明でほぼ完璧に成功
- Authors: Govind Ramesh, Yao Dou, Wei Xu,
- Abstract要約: IRIS(Iterative Refinement induced Self-Jailbreak)は,ブラックボックスアクセスのみのジェイルブレイクに対する新しいアプローチである。
以前の方法とは異なり、IRISは単一のモデルを攻撃者とターゲットの両方として使用することで、ジェイルブレイクプロセスを単純化する。
その結果, GPT-4で98%, GPT-4 Turboで92%のIRISジェイルブレイク成功率は7問未満であった。
- 参考スコア(独自算出の注目度): 9.377563769107843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research on jailbreaking has been valuable for testing and understanding the safety and security issues of large language models (LLMs). In this paper, we introduce Iterative Refinement Induced Self-Jailbreak (IRIS), a novel approach that leverages the reflective capabilities of LLMs for jailbreaking with only black-box access. Unlike previous methods, IRIS simplifies the jailbreaking process by using a single model as both the attacker and target. This method first iteratively refines adversarial prompts through self-explanation, which is crucial for ensuring that even well-aligned LLMs obey adversarial instructions. IRIS then rates and enhances the output given the refined prompt to increase its harmfulness. We find IRIS achieves jailbreak success rates of 98% on GPT-4 and 92% on GPT-4 Turbo in under 7 queries. It significantly outperforms prior approaches in automatic, black-box and interpretable jailbreaking, while requiring substantially fewer queries, thereby establishing a new standard for interpretable jailbreaking methods.
- Abstract(参考訳): ジェイルブレイクの研究は、大規模言語モデル(LLM)の安全性とセキュリティの問題をテストし理解するのに有用である。
本稿では, ブラックボックスアクセスのみのジェイルブレイクにおいて, LLMの反射能力を活用する新しい手法であるIRISを導入する。
以前の方法とは異なり、IRISは単一のモデルを攻撃者とターゲットの両方として使用することで、ジェイルブレイクプロセスを単純化する。
この手法はまず, 自己説明を通じて, 敵対的プロンプトを反復的に洗練させる。
IRISは、精製されたプロンプトが有害性を高めるために出力を評価・増強する。
IRIS は GPT-4 で 98%, GPT-4 Turbo で 92% のジェイルブレイク成功率を 7 以下のクエリで達成している。
これは、自動、ブラックボックス、解釈可能なジェイルブレイクにおいて、かなり少ないクエリを必要とする一方で、以前のアプローチよりも大幅に優れており、解釈可能なジェイルブレイクメソッドの新たな標準を確立している。
関連論文リスト
- Can Large Language Models Automatically Jailbreak GPT-4V? [64.04997365446468]
本稿では,迅速な最適化にインスパイアされた革新的な自動ジェイルブレイク技術であるAutoJailbreakを紹介する。
実験の結果,AutoJailbreakは従来の手法をはるかに上回り,95.3%を超えるアタック成功率(ASR)を達成した。
この研究は、GPT-4Vのセキュリティ強化に光を当て、LCMがGPT-4Vの完全性向上に活用される可能性を強調している。
論文 参考訳(メタデータ) (2024-07-23T17:50:45Z) - Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection [54.05862550647966]
本稿では、以前LLMセキュリティで見過ごされていた特別なトークンを活用して、ジェイルブレイク攻撃を改善する仮想コンテキストを提案する。
総合的な評価によると、仮想コンテキストによるジェイルブレイク攻撃は、4つの広く使われているジェイルブレイク手法の成功率を約40%向上させることができる。
論文 参考訳(メタデータ) (2024-06-28T11:35:54Z) - EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。
Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。
10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文 参考訳(メタデータ) (2024-03-18T18:39:53Z) - Semantic Mirror Jailbreak: Genetic Algorithm Based Jailbreak Prompts
Against Open-source LLMs [30.8029926520819]
大規模言語モデル(LLM)は入力シーケンスに基づいてテキストを生成するが、ジェイルブレイク攻撃には弱い。
ジェイルブレイクプロンプトは、クエリに使用する元の質問よりも意味的に多様である。
セマンティック・ミラー・ジェイルブレイク(SMJ)アプローチを導入し,従来の質問と意味的に類似したジェイルブレイクプロンプトを生成することでLCMをバイパスする手法を提案する。
論文 参考訳(メタデータ) (2024-02-21T15:13:50Z) - A StrongREJECT for Empty Jailbreaks [74.66228107886751]
ジェイルブレイクの深刻度を測定するための標準ベンチマークはありません。
我々は、有効なジェイルブレイクと非効果的なジェイルブレイクを区別するStrongREJECTを提案する。
論文 参考訳(メタデータ) (2024-02-15T18:58:09Z) - All in How You Ask for It: Simple Black-Box Method for Jailbreak Attacks [0.0]
本研究では,ジェイルブレイクプロンプトを効率的に作成するための簡単なブラックボックス手法を提案する。
本手法は有害なプロンプトを目的のLSMを直接利用した良性表現に反復的に変換する。
提案手法は, 平均5回の質問に対して, 80%以上の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-01-18T08:36:54Z) - Tree of Attacks: Jailbreaking Black-Box LLMs Automatically [36.08357229578738]
本稿では,ジェイルブレイクを自動生成するTAP(Tree of Attacks with Pruning)を提案する。
TAPは、少数のクエリだけでプロンプトの80%以上をジェイルブレイク状態のLLMで実行するプロンプトを生成する。
TAPはまた、LlamaGuardのような最先端のガードレールによって保護されたLLMをジェイルブレイクすることができる。
論文 参考訳(メタデータ) (2023-12-04T18:49:23Z) - Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts [64.60375604495883]
GPT-4Vでは,システムに侵入する脆弱性が発見された。
GPT-4を自身に対するレッド・チーム・ツールとして活用することで、盗難システムプロンプトを利用した脱獄プロンプトの可能性を探索することを目指している。
また,システムプロンプトの変更による脱獄攻撃に対する防御効果も評価した。
論文 参考訳(メタデータ) (2023-11-15T17:17:39Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。