論文の概要: A StrongREJECT for Empty Jailbreaks
- arxiv url: http://arxiv.org/abs/2402.10260v1
- Date: Thu, 15 Feb 2024 18:58:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 18:29:33.023006
- Title: A StrongREJECT for Empty Jailbreaks
- Title(参考訳): エンプティ・ジェイルブレイクのためのストロングREJECT
- Authors: Alexandra Souly, Qingyuan Lu, Dillon Bowen, Tu Trinh, Elvis Hsieh,
Sana Pandey, Pieter Abbeel, Justin Svegliato, Scott Emmons, Olivia Watkins,
Sam Toyer
- Abstract要約: ジェイルブレイクの深刻度を測定するための標準ベンチマークはありません。
我々は、有効なジェイルブレイクと非効果的なジェイルブレイクを区別するStrongREJECTを提案する。
- 参考スコア(独自算出の注目度): 74.66228107886751
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of large language models (LLMs) has drawn attention to the existence
of "jailbreaks" that allow the models to be used maliciously. However, there is
no standard benchmark for measuring the severity of a jailbreak, leaving
authors of jailbreak papers to create their own. We show that these benchmarks
often include vague or unanswerable questions and use grading criteria that are
biased towards overestimating the misuse potential of low-quality model
responses. Some jailbreak techniques make the problem worse by decreasing the
quality of model responses even on benign questions: we show that several
jailbreaking techniques substantially reduce the zero-shot performance of GPT-4
on MMLU. Jailbreaks can also make it harder to elicit harmful responses from an
"uncensored" open-source model. We present a new benchmark, StrongREJECT, which
better discriminates between effective and ineffective jailbreaks by using a
higher-quality question set and a more accurate response grading algorithm. We
show that our new grading scheme better accords with human judgment of response
quality and overall jailbreak effectiveness, especially on the sort of
low-quality responses that contribute the most to over-estimation of jailbreak
performance on existing benchmarks. We release our code and data at
https://github.com/alexandrasouly/strongreject.
- Abstract(参考訳): 大規模言語モデル(LLM)の台頭は、モデルを悪意を持って使用できるようにする"jailbreaks"の存在に注意を向けている。
しかし、ジェイルブレイクの深刻度を測定する標準的なベンチマークは存在せず、ジェイルブレイク文書の作成者は自分自身で作成できる。
これらのベンチマークにはあいまいな質問や難解な質問が含まれ、低品質モデル応答の誤用可能性を過小評価する偏りのある評価基準が用いられることが多い。
いくつかのジェイルブレイク技術は,MMLUにおけるGPT-4のゼロショット性能を大幅に低下させることで,モデル応答の質を低下させることによって問題を悪化させる。
ジェイルブレイクは、“検閲されていない”オープンソースモデルから有害な反応を引き出すのを難しくする。
我々は,より高品質な質問集合とより正確な応答評価アルゴリズムを用いて,効果的なジェイルブレイクと非効率的なジェイルブレイクを区別する新しいベンチマークである strongreject を提案する。
特に既存のベンチマークにおけるジェイルブレイク性能の過大評価に最も寄与する低品質の応答について,人間の反応品質と全体的なジェイルブレイク効果の判断によりよく対応できることを示す。
コードとデータはhttps://github.com/alexandrasouly/strongrejectでリリースします。
関連論文リスト
- xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [59.25318174362368]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - JailbreakLens: Interpreting Jailbreak Mechanism in the Lens of Representation and Circuit [21.380057443286034]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
脱獄攻撃は多いが、根底にあるメカニズムの理解は依然として限られている。
論文 参考訳(メタデータ) (2024-11-17T16:08:34Z) - Rapid Response: Mitigating LLM Jailbreaks with a Few Examples [13.841146655178585]
我々は,少数の攻撃を観測した後に,脱獄のクラス全体をブロックするために,迅速な応答手法を開発した。
我々は5つの迅速応答法を評価し,それぞれがジェイルブレイク増殖を利用した。
我々の最強の方法は、ジェイルブレイクの非分配セットで240以上、アウト・オブ・ディストリビューションセットで15以上、攻撃成功率で240以上削減する。
論文 参考訳(メタデータ) (2024-11-12T02:44:49Z) - WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models [66.34505141027624]
我々は、WildTeamingを紹介した。これは自動LLM安全リチームフレームワークで、Wild-Chatbotインタラクションをマイニングし、新しいジェイルブレイク戦術の5.7Kのユニークなクラスタを発見する。
WildTeamingは、未確認のフロンティアLSMの脆弱性を明らかにし、最大4.6倍の多様性と敵の攻撃に成功した。
論文 参考訳(メタデータ) (2024-06-26T17:31:22Z) - JailbreakEval: An Integrated Toolkit for Evaluating Jailbreak Attempts Against Large Language Models [21.854909839996612]
ジェイルブレイク攻撃は、有害な応答を生成するために大規模言語モデル(LLM)を誘導する。
ジェイルブレイクの評価には合意がない。
JailbreakEvalは、jailbreakの試みを評価するツールキットである。
論文 参考訳(メタデータ) (2024-06-13T16:59:43Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models [123.66104233291065]
ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。
これらの攻撃を評価することは、現在のベンチマークと評価テクニックの収集が適切に対処していない、多くの課題を提示します。
JailbreakBenchは、以下のコンポーネントを備えたオープンソースのベンチマークである。
論文 参考訳(メタデータ) (2024-03-28T02:44:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。