論文の概要: JADES: A Universal Framework for Jailbreak Assessment via Decompositional Scoring
- arxiv url: http://arxiv.org/abs/2508.20848v1
- Date: Thu, 28 Aug 2025 14:40:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.454983
- Title: JADES: A Universal Framework for Jailbreak Assessment via Decompositional Scoring
- Title(参考訳): JADES: 分解スコーリングによるジェイルブレイクアセスメントのためのユニバーサルフレームワーク
- Authors: Junjie Chu, Mingjie Li, Ziqing Yang, Ye Leng, Chenhao Lin, Chao Shen, Michael Backes, Yun Shen, Yang Zhang,
- Abstract要約: 本稿では,JADES(Jailbreak Assessment via Decompositional Scoring)について紹介する。
その鍵となるメカニズムは、入力された有害な質問を一連の重み付けされたサブ問合せに自動的に分解し、各サブ問合せをスコアし、サブスコアを最終決定に重み付けすることである。
JADES on JailbreakQRは400対のjailbreakプロンプトと応答からなる新しいベンチマークで、それぞれが人間によって細心の注意を払って注釈付けされている。
- 参考スコア(独自算出の注目度): 45.76641811031552
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Accurately determining whether a jailbreak attempt has succeeded is a fundamental yet unresolved challenge. Existing evaluation methods rely on misaligned proxy indicators or naive holistic judgments. They frequently misinterpret model responses, leading to inconsistent and subjective assessments that misalign with human perception. To address this gap, we introduce JADES (Jailbreak Assessment via Decompositional Scoring), a universal jailbreak evaluation framework. Its key mechanism is to automatically decompose an input harmful question into a set of weighted sub-questions, score each sub-answer, and weight-aggregate the sub-scores into a final decision. JADES also incorporates an optional fact-checking module to strengthen the detection of hallucinations in jailbreak responses. We validate JADES on JailbreakQR, a newly introduced benchmark proposed in this work, consisting of 400 pairs of jailbreak prompts and responses, each meticulously annotated by humans. In a binary setting (success/failure), JADES achieves 98.5% agreement with human evaluators, outperforming strong baselines by over 9%. Re-evaluating five popular attacks on four LLMs reveals substantial overestimation (e.g., LAA's attack success rate on GPT-3.5-Turbo drops from 93% to 69%). Our results show that JADES could deliver accurate, consistent, and interpretable evaluations, providing a reliable basis for measuring future jailbreak attacks.
- Abstract(参考訳): ジェイルブレイクの試みが成功したかどうかを正確に判断することは、基本的だが未解決の課題である。
既存の評価手法は、不整合のプロキシインジケータやナイーブな全体的判断に依存している。
彼らはしばしばモデル反応を誤解し、人間の知覚と不一致で主観的な評価をもたらす。
このギャップに対処するため、ユニバーサルジェイルブレイク評価フレームワークであるJADES(Jailbreak Assessment via Decompositional Scoring)を紹介する。
その鍵となるメカニズムは、入力された有害な質問を一連の重み付けされたサブ問合せに自動的に分解し、各サブ問合せをスコアし、サブスコアを最終決定に重み付けすることである。
JADESはまた、jailbreakレスポンスにおける幻覚の検出を強化するために、オプションのファクトチェックモジュールも組み込んでいる。
JADES on JailbreakQRは、この研究で新たに提案されたベンチマークで、400対のjailbreakプロンプトとレスポンスで構成され、それぞれが人間によって慎重に注釈付けされている。
二進法(success/failure)では、JADESは人間の評価者と98.5%の合意を達成し、強い基準線を9%以上上回っている。
GPT-3.5-Turboの攻撃成功率は93%から69%)。
以上の結果から,JADESは正確で一貫した,解釈可能な評価を提供し,将来の脱獄攻撃を計測するための信頼性の高い基盤を提供する可能性が示唆された。
関連論文リスト
- GuidedBench: Measuring and Mitigating the Evaluation Discrepancies of In-the-wild LLM Jailbreak Methods [10.603857042090521]
2022年以降,37件のジェイルブレイク研究に基づいて,系統的な測定を行った。
既存の評価システムにはケース特化基準が欠如しており,その有効性や安全性に関する誤解を招く結果が得られた。
GuidedBenchは、キュレートされた有害な質問データセット、詳細なケースバイケース評価ガイドライン、これらのガイドラインと統合された評価システムを含む、新しいベンチマークである。
論文 参考訳(メタデータ) (2025-02-24T06:57:27Z) - Jigsaw Puzzles: Splitting Harmful Questions to Jailbreak Large Language Models [50.89022445197919]
大規模言語モデル(LLM)は、人間との関わりにおいて卓越した性能を示した。
LLMは脱獄攻撃に弱いため、有害な反応が生じる。
我々は,高度LLMに対する単純かつ効果的なマルチターンジェイルブレイク戦略であるJigsaw Puzzles (JSP)を提案する。
論文 参考訳(メタデータ) (2024-10-15T10:07:15Z) - JailbreakEval: An Integrated Toolkit for Evaluating Jailbreak Attempts Against Large Language Models [21.854909839996612]
ジェイルブレイク攻撃は、有害な応答を生成するために大規模言語モデル(LLM)を誘導する。
ジェイルブレイクの評価には合意がない。
JailbreakEvalは、jailbreakの試みを評価するツールキットである。
論文 参考訳(メタデータ) (2024-06-13T16:59:43Z) - Rethinking How to Evaluate Language Model Jailbreak [16.301224741410312]
言語モデルジェイルブレイクを評価するために, 3つの指標, 保護違反, 情報性, 相対真理性を提案する。
3つの悪意のある意図的データセットと3つのジェイルブレイクシステムから生成されたベンチマークデータセットで、我々の測定値を評価する。
論文 参考訳(メタデータ) (2024-04-09T15:54:16Z) - JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models [123.66104233291065]
ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。
これらの攻撃を評価することは、現在のベンチマークと評価テクニックの収集が適切に対処していない、多くの課題を提示します。
JailbreakBenchは、以下のコンポーネントを備えたオープンソースのベンチマークである。
論文 参考訳(メタデータ) (2024-03-28T02:44:02Z) - A StrongREJECT for Empty Jailbreaks [72.8807309802266]
StrongREJECTは、ジェイルブレイクのパフォーマンスを評価するための高品質なベンチマークである。
これは、被害者モデルが禁止されたプロンプトに対する応答の有害性を評価する。
それは、ジェイルブレイクの有効性の人間の判断と最先端の合意を達成します。
論文 参考訳(メタデータ) (2024-02-15T18:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。