論文の概要: EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models
- arxiv url: http://arxiv.org/abs/2403.12171v1
- Date: Mon, 18 Mar 2024 18:39:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 18:21:58.111664
- Title: EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models
- Title(参考訳): EasyJailbreak: 大規模言語モデルをジェイルブレイクするための統一フレームワーク
- Authors: Weikang Zhou, Xiao Wang, Limao Xiong, Han Xia, Yingshuang Gu, Mingxu Chai, Fukang Zhu, Caishuang Huang, Shihan Dou, Zhiheng Xi, Rui Zheng, Songyang Gao, Yicheng Zou, Hang Yan, Yifan Le, Ruohui Wang, Lijun Li, Jing Shao, Tao Gui, Qi Zhang, Xuanjing Huang,
- Abstract要約: 本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。
Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。
10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
- 参考スコア(独自算出の注目度): 53.87416566981008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Jailbreak attacks are crucial for identifying and mitigating the security vulnerabilities of Large Language Models (LLMs). They are designed to bypass safeguards and elicit prohibited outputs. However, due to significant differences among various jailbreak methods, there is no standard implementation framework available for the community, which limits comprehensive security evaluations. This paper introduces EasyJailbreak, a unified framework simplifying the construction and evaluation of jailbreak attacks against LLMs. It builds jailbreak attacks using four components: Selector, Mutator, Constraint, and Evaluator. This modular framework enables researchers to easily construct attacks from combinations of novel and existing components. So far, EasyJailbreak supports 11 distinct jailbreak methods and facilitates the security validation of a broad spectrum of LLMs. Our validation across 10 distinct LLMs reveals a significant vulnerability, with an average breach probability of 60% under various jailbreaking attacks. Notably, even advanced models like GPT-3.5-Turbo and GPT-4 exhibit average Attack Success Rates (ASR) of 57% and 33%, respectively. We have released a wealth of resources for researchers, including a web platform, PyPI published package, screencast video, and experimental outputs.
- Abstract(参考訳): 大規模言語モデル(LLM)のセキュリティ脆弱性の特定と緩和には、脱獄攻撃が不可欠である。
セーフガードをバイパスし、禁止されたアウトプットを引き出すように設計されている。
しかし、さまざまなjailbreakメソッドに大きな違いがあるため、コミュニティで利用可能な標準実装フレームワークは存在せず、包括的なセキュリティ評価が制限されている。
本稿では,LLMに対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。
Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。
このモジュラーフレームワークは、研究者が新しいコンポーネントと既存のコンポーネントの組み合わせから簡単に攻撃を構築できる。
今のところ、EasyJailbreakは11の異なるjailbreakメソッドをサポートし、幅広いLLMのセキュリティ検証を容易にする。
10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の攻撃確率で重大な脆弱性が判明した。
特に、GPT-3.5-TurboやGPT-4のような先進モデルでさえ、それぞれ平均攻撃成功率(ASR)が57%、33%である。
我々は、Webプラットフォーム、PyPIパブリッシュパッケージ、スクリーンキャストビデオ、実験的なアウトプットなど、研究者のための豊富なリソースをリリースした。
関連論文リスト
- Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks? [39.87609532392292]
この研究は、11の異なる安全ポリシーをカバーする1445の有害な質問を含む包括的なジェイルブレイク評価データセットを構築している。
GPT4 と GPT-4V は、オープンソースの LLM や MLLM と比較して、ジェイルブレイク攻撃に対する堅牢性を向上している。
Llama2とQwen-VL-Chatは、他のオープンソースモデルよりも堅牢である。
論文 参考訳(メタデータ) (2024-04-04T12:38:14Z) - JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models [123.66104233291065]
ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。
JailbreakBenchは、jailbreak攻撃を評価するためのオープンソースのベンチマークである。
論文 参考訳(メタデータ) (2024-03-28T02:44:02Z) - Semantic Mirror Jailbreak: Genetic Algorithm Based Jailbreak Prompts
Against Open-source LLMs [30.8029926520819]
大規模言語モデル(LLM)は入力シーケンスに基づいてテキストを生成するが、ジェイルブレイク攻撃には弱い。
ジェイルブレイクプロンプトは、クエリに使用する元の質問よりも意味的に多様である。
セマンティック・ミラー・ジェイルブレイク(SMJ)アプローチを導入し,従来の質問と意味的に類似したジェイルブレイクプロンプトを生成することでLCMをバイパスする手法を提案する。
論文 参考訳(メタデータ) (2024-02-21T15:13:50Z) - A StrongREJECT for Empty Jailbreaks [74.66228107886751]
ジェイルブレイクの深刻度を測定するための標準ベンチマークはありません。
我々は、有効なジェイルブレイクと非効果的なジェイルブレイクを区別するStrongREJECTを提案する。
論文 参考訳(メタデータ) (2024-02-15T18:58:09Z) - Comprehensive Assessment of Jailbreak Attacks Against LLMs [28.58973312098698]
4つのカテゴリから13の最先端ジェイルブレイク法,16の違反カテゴリから160の質問,6つの人気のあるLDMについて検討した。
実験の結果, 最適化されたジェイルブレイクは高い攻撃成功率を確実に達成することが示された。
攻撃性能と効率のトレードオフについて論じるとともに、脱獄プロンプトの転送性は依然として維持可能であることを示す。
論文 参考訳(メタデータ) (2024-02-08T13:42:50Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts [64.60375604495883]
GPT-4Vでは,システムに侵入する脆弱性が発見された。
GPT-4を自身に対するレッド・チーム・ツールとして活用することで、盗難システムプロンプトを利用した脱獄プロンプトの可能性を探索することを目指している。
また,システムプロンプトの変更による脱獄攻撃に対する防御効果も評価した。
論文 参考訳(メタデータ) (2023-11-15T17:17:39Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [102.17459476527233]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
これらの脆弱性を特定するために,PAIR(Prompt Automatic Iterative Refinement)を提案する。
PAIRは、LCMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - FuzzLLM: A Novel and Universal Fuzzing Framework for Proactively Discovering Jailbreak Vulnerabilities in Large Language Models [11.517609196300217]
FuzzLLMは,大規模言語モデル(LLM)におけるジェイルブレイク脆弱性を積極的にテストし,発見するために設計された,自動ファジリングフレームワークである。
テンプレートを使用してプロンプトの構造的整合性をキャプチャし、制約としてJailbreakクラスの重要な特徴を分離します。
異なるベースクラスを強力なコンボ攻撃に統合し、制約や禁止された質問の要素を変更することで、FazLLMは手作業の少ない効率的なテストを可能にする。
論文 参考訳(メタデータ) (2023-09-11T07:15:02Z) - Tricking LLMs into Disobedience: Formalizing, Analyzing, and Detecting Jailbreaks [12.540530764250812]
我々は、既知の(そして可能な)ジェイルブレイクの形式主義と分類法を提案する。
私たちは3700のjailbreakプロンプトにまたがるモデル出力のデータセットを4つのタスクでリリースしています。
論文 参考訳(メタデータ) (2023-05-24T09:57:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。