論文の概要: JAILJUDGE: A Comprehensive Jailbreak Judge Benchmark with Multi-Agent Enhanced Explanation Evaluation Framework
- arxiv url: http://arxiv.org/abs/2410.12855v2
- Date: Fri, 18 Oct 2024 02:35:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:23:18.859475
- Title: JAILJUDGE: A Comprehensive Jailbreak Judge Benchmark with Multi-Agent Enhanced Explanation Evaluation Framework
- Title(参考訳): JAILJUDGE: マルチエージェント拡張説明評価フレームワークを用いた総合的ジェイルブレイク判定ベンチマーク
- Authors: Fan Liu, Yue Feng, Zhao Xu, Lixin Su, Xinyu Ma, Dawei Yin, Hao Liu,
- Abstract要約: 提案するJAILJUDGEは,合成,逆行,内在,多言語的プロンプトなど,さまざまなリスクシナリオを特徴とするベンチマークである。
説明可能な,きめ細かいスコアリングが可能な JailJudge MultiAgent フレームワーク (1 から 10) を提案する。
JAILJUDGE Guardを利用する攻撃非攻撃型攻撃強化器であるJailBoostと、モデレーションディフェンスであるGuardShieldについても紹介する。
- 参考スコア(独自算出の注目度): 33.95412482837461
- License:
- Abstract: Despite advancements in enhancing LLM safety against jailbreak attacks, evaluating LLM defenses remains a challenge, with current methods often lacking explainability and generalization to complex scenarios, leading to incomplete assessments (e.g., direct judgment without reasoning, low F1 score of GPT-4 in complex cases, bias in multilingual scenarios). To address this, we present JAILJUDGE, a comprehensive benchmark featuring diverse risk scenarios, including synthetic, adversarial, in-the-wild, and multilingual prompts, along with high-quality human-annotated datasets. The JAILJUDGE dataset includes over 35k+ instruction-tune data with reasoning explainability and JAILJUDGETEST, a 4.5k+ labeled set for risk scenarios, and a 6k+ multilingual set across ten languages. To enhance evaluation with explicit reasoning, we propose the JailJudge MultiAgent framework, which enables explainable, fine-grained scoring (1 to 10). This framework supports the construction of instruction-tuning ground truth and facilitates the development of JAILJUDGE Guard, an end-to-end judge model that provides reasoning and eliminates API costs. Additionally, we introduce JailBoost, an attacker-agnostic attack enhancer, and GuardShield, a moderation defense, both leveraging JAILJUDGE Guard. Our experiments demonstrate the state-of-the-art performance of JailJudge methods (JailJudge MultiAgent, JAILJUDGE Guard) across diverse models (e.g., GPT-4, Llama-Guard) and zero-shot scenarios. JailBoost and GuardShield significantly improve jailbreak attack and defense tasks under zero-shot settings, with JailBoost enhancing performance by 29.24% and GuardShield reducing defense ASR from 40.46% to 0.15%.
- Abstract(参考訳): ジェイルブレイク攻撃に対するLLMの安全性向上の進展にもかかわらず、LCMの防御評価は依然として課題であり、現在の手法では説明可能性の欠如や複雑なシナリオへの一般化がしばしば行われており、不完全な評価(例えば、推論なしでの直接判定、複雑な場合におけるGPT-4の低F1スコア、多言語シナリオにおけるバイアス)につながっている。
これを解決するため,JAILJUDGEを提案する。JAILJUDGEは,多種多様なリスクシナリオを特徴とする総合的ベンチマークである。
JAILJUDGEデータセットには、推論可能性を備えた35k以上の命令-ツインデータと、リスクシナリオ用の4.5k以上のラベル付きセットと、10言語にわたる6k以上の多言語セットが含まれている。
明示的推論による評価を高めるために,説明可能な,きめ細かいスコアリングが可能な JailJudge MultiAgent フレームワーク (1 から 10 まで) を提案する。
このフレームワークは、命令チューニング基盤の真理の構築をサポートし、APIコストの推論と排除を提供するエンドツーエンドの判断モデルであるJAILJUDGE Guardの開発を促進する。
さらに、アタッカー非依存のアタックエンハンサーであるJailBoostと、JAILJUDGE Guardを利用するモデレーションディフェンスであるGuardShieldを紹介する。
実験では,JailJudge法(JailJudge MultiAgent, JAILJUDGE Guard)の各種モデル(GPT-4, Llama-Guard)およびゼロショットシナリオにおける最先端性能を実証した。
JailBoostとGuardShieldはゼロショット設定下でのジェイルブレイク攻撃と防御タスクを大幅に改善し、JailBoostは29.24%、GuardShieldはASRを40.46%から0.15%に削減した。
関連論文リスト
- Jigsaw Puzzles: Splitting Harmful Questions to Jailbreak Large Language Models [50.89022445197919]
大規模言語モデル(LLM)は、人間との関わりにおいて卓越した性能を示した。
LLMは脱獄攻撃に弱いため、有害な反応が生じる。
我々は,高度LLMに対する単純かつ効果的なマルチターンジェイルブレイク戦略であるJigsaw Puzzles (JSP)を提案する。
論文 参考訳(メタデータ) (2024-10-15T10:07:15Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - Adversarial Tuning: Defending Against Jailbreak Attacks for LLMs [13.317364896194903]
本稿では,大規模言語モデルの汎用防衛能力を高めるための2段階の逆調整フレームワークを提案する。
第1段階では,トークンレベルの逆数生成を効率的に行うために,階層型メタユニバーサル逆数学習を導入する。
第2段階では,自動対向プロンプト学習により,意味レベルの対向プロンプトを反復的に洗練する手法を提案する。
論文 参考訳(メタデータ) (2024-06-07T15:37:15Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。
Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。
10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文 参考訳(メタデータ) (2024-03-18T18:39:53Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z) - Robust Prompt Optimization for Defending Language Models Against Jailbreaking Attacks [17.22989422489567]
大規模言語モデル(LLM)は敵の攻撃や脱獄に対して脆弱である。
本稿では,LLMをジェイルブレイク攻撃から守るための最適化に基づく目標と,堅牢なシステムレベルの防御を実現するアルゴリズムを提案する。
GPT-4の攻撃成功率(ASR)は6%,Llama-2の攻撃成功率(ASR)は0%に低下した。
論文 参考訳(メタデータ) (2024-01-30T18:56:08Z) - JailGuard: A Universal Detection Framework for LLM Prompt-based Attacks [34.95274579737075]
本稿では, LLM と MLLM をまたいだジェイルブレイクおよびハイジャック攻撃の普遍的検出フレームワークである JailGuard を提案する。
JailGuardは、攻撃は本質的に、メソッドやモダリティに関わらず、良心的な攻撃よりも堅牢ではない、という原則に基づいている。
15の既知の攻撃タイプにわたる11,000のデータ項目を含む、最初の総合的なマルチモーダルアタックデータセットを構築します。
論文 参考訳(メタデータ) (2023-12-17T17:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。