論文の概要: A StrongREJECT for Empty Jailbreaks
- arxiv url: http://arxiv.org/abs/2402.10260v2
- Date: Tue, 27 Aug 2024 03:32:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 19:49:00.158674
- Title: A StrongREJECT for Empty Jailbreaks
- Title(参考訳): エンプティ・ジェイルブレイクのためのストロングREJECT
- Authors: Alexandra Souly, Qingyuan Lu, Dillon Bowen, Tu Trinh, Elvis Hsieh, Sana Pandey, Pieter Abbeel, Justin Svegliato, Scott Emmons, Olivia Watkins, Sam Toyer,
- Abstract要約: StrongREJECTは、ジェイルブレイクのパフォーマンスを評価するための高品質なベンチマークである。
これは、被害者モデルが禁止されたプロンプトに対する応答の有害性を評価する。
それは、ジェイルブレイクの有効性の人間の判断と最先端の合意を達成します。
- 参考スコア(独自算出の注目度): 72.8807309802266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most jailbreak papers claim the jailbreaks they propose are highly effective, often boasting near-100% attack success rates. However, it is perhaps more common than not for jailbreak developers to substantially exaggerate the effectiveness of their jailbreaks. We suggest this problem arises because jailbreak researchers lack a standard, high-quality benchmark for evaluating jailbreak performance, leaving researchers to create their own. To create a benchmark, researchers must choose a dataset of forbidden prompts to which a victim model will respond, along with an evaluation method that scores the harmfulness of the victim model's responses. We show that existing benchmarks suffer from significant shortcomings and introduce the StrongREJECT benchmark to address these issues. StrongREJECT's dataset contains prompts that victim models must answer with specific, harmful information, while its automated evaluator measures the extent to which a response gives useful information to forbidden prompts. In doing so, the StrongREJECT evaluator achieves state-of-the-art agreement with human judgments of jailbreak effectiveness. Notably, we find that existing evaluation methods significantly overstate jailbreak effectiveness compared to human judgments and the StrongREJECT evaluator. We describe a surprising and novel phenomenon that explains this discrepancy: jailbreaks bypassing a victim model's safety fine-tuning tend to reduce its capabilities. Together, our findings underscore the need for researchers to use a high-quality benchmark, such as StrongREJECT, when developing new jailbreak attacks. We release the StrongREJECT code and data at https://strong-reject.readthedocs.io/en/latest/.
- Abstract(参考訳): ほとんどのジェイルブレイク論文は、彼らが提案するジェイルブレイクは非常に効果的であり、しばしば攻撃の成功率のほぼ100%を誇っていると主張している。
しかし、Jailbreak開発者がジェイルブレイクの有効性を著しく誇張しないよりは、おそらくより一般的である。
私たちは、ジェイルブレイク研究者がジェイルブレイクのパフォーマンスを評価するための標準で高品質なベンチマークを欠いているため、この問題が生じることを示唆している。
ベンチマークを作成するには、研究者は、被害者モデルが反応するであろう禁止されたプロンプトのデータセットと、被害者モデルの応答の有害性を評価する評価方法を選択する必要がある。
既存のベンチマークは重大な欠点に悩まされており、これらの問題に対処するためにStrongREJECTベンチマークを導入している。
StrongREJECTのデータセットには、被害者のモデルが特定の有害な情報に答えなければならないというプロンプトが含まれている。
そうすることで、StrongREJECT評価者は、ジェイルブレイクの有効性の人間の判断と最先端の合意を達成できる。
特に,既存の評価手法は,人的判断やStrongREJECT評価器に比べて脱獄効果を著しく上回ることがわかった。
ジェイルブレイクは、被害者モデルの安全性を微調整することで、その能力を低下させる傾向がある。
今回の発見は、新たなジェイルブレイク攻撃の開発において、StrongREJECTのような高品質なベンチマークを使用する必要性を裏付けるものです。
StrongREJECTのコードとデータはhttps://strong-reject.readthedocs.io/en/latest/で公開しています。
関連論文リスト
- WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models [66.34505141027624]
我々は、WildTeamingを紹介した。これは自動LLM安全リチームフレームワークで、Wild-Chatbotインタラクションをマイニングし、新しいジェイルブレイク戦術の5.7Kのユニークなクラスタを発見する。
WildTeamingは、未確認のフロンティアLSMの脆弱性を明らかにし、最大4.6倍の多様性と敵の攻撃に成功した。
論文 参考訳(メタデータ) (2024-06-26T17:31:22Z) - JailbreakEval: An Integrated Toolkit for Evaluating Jailbreak Attempts Against Large Language Models [21.854909839996612]
Jailbreak攻撃は、禁止命令に対する有害な応答を生成するために、LLM(Large Language Models)を誘導することを目的としている。
ジェイルブレイクの試みが成功するかどうかを評価する方法には(当然のことながら)合意がない。
JailbreakEvalは、Jailbreakの試みの評価に焦点を当てた、ユーザフレンドリーなツールキットである。
論文 参考訳(メタデータ) (2024-06-13T16:59:43Z) - Understanding Jailbreak Success: A Study of Latent Space Dynamics in Large Language Models [4.547063832007314]
本稿では,異なるジェイルブレイク入力に対するモデルアクティベーションの解析を行う。
我々は、ジェイルブレイクの有効性を他のクラスから軽減するための単一のクラスからジェイルブレイクベクトルを抽出できることを発見した。
論文 参考訳(メタデータ) (2024-06-13T16:26:47Z) - GPT-4 Jailbreaks Itself with Near-Perfect Success Using Self-Explanation [9.377563769107843]
IRIS(Iterative Refinement induced Self-Jailbreak)は,ブラックボックスアクセスのみのジェイルブレイクに対する新しいアプローチである。
以前の方法とは異なり、IRISは単一のモデルを攻撃者とターゲットの両方として使用することで、ジェイルブレイクプロセスを単純化する。
その結果, GPT-4で98%, GPT-4 Turboで92%のIRISジェイルブレイク成功率は7問未満であった。
論文 参考訳(メタデータ) (2024-05-21T03:16:35Z) - JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models [123.66104233291065]
ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。
これらの攻撃を評価することは、現在のベンチマークと評価テクニックの収集が適切に対処していない、多くの課題を提示します。
JailbreakBenchは、以下のコンポーネントを備えたオープンソースのベンチマークである。
論文 参考訳(メタデータ) (2024-03-28T02:44:02Z) - EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。
Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。
10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文 参考訳(メタデータ) (2024-03-18T18:39:53Z) - Semantic Mirror Jailbreak: Genetic Algorithm Based Jailbreak Prompts
Against Open-source LLMs [30.8029926520819]
大規模言語モデル(LLM)は入力シーケンスに基づいてテキストを生成するが、ジェイルブレイク攻撃には弱い。
ジェイルブレイクプロンプトは、クエリに使用する元の質問よりも意味的に多様である。
セマンティック・ミラー・ジェイルブレイク(SMJ)アプローチを導入し,従来の質問と意味的に類似したジェイルブレイクプロンプトを生成することでLCMをバイパスする手法を提案する。
論文 参考訳(メタデータ) (2024-02-21T15:13:50Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。