論文の概要: Beyond Uniform Criteria: Scenario-Adaptive Multi-Dimensional Jailbreak Evaluation
- arxiv url: http://arxiv.org/abs/2508.06194v1
- Date: Fri, 08 Aug 2025 10:19:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.194164
- Title: Beyond Uniform Criteria: Scenario-Adaptive Multi-Dimensional Jailbreak Evaluation
- Title(参考訳): 一様基準を超えて:シナリオ適応型多次元ジェイルブレイク評価
- Authors: Lai Jiang, Yuekang Li, Xiaohan Zhang, Youtao Ding, Li Pan,
- Abstract要約: SceneJailEvalは、ジェイルブレイク評価のためのシナリオ適応フレームワークである。
これは、既存の多次元メソッドの「一大フィット」制約を克服する。
SceneJailEvalは、私たちのフルシナリオデータセットでF1スコア0.917で、最先端の結果を達成します。
- 参考スコア(独自算出の注目度): 24.02583206504845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Precise jailbreak evaluation is vital for LLM red teaming and jailbreak research. Current approaches employ binary classification ( e.g., string matching, toxic text classifiers, LLM-driven methods), yielding only "yes/no" labels without quantifying harm intensity. Existing multi-dimensional frameworks ( e.g., Security Violation, Relative Truthfulness, Informativeness) apply uniform evaluation criteria across scenarios, resulting in scenario-specific mismatches--for instance, "Relative Truthfulness" is irrelevant to "hate speech"--which compromise evaluation precision. To tackle these limitations, we introduce SceneJailEval, with key contributions: (1) A groundbreaking scenario-adaptive multi-dimensional framework for jailbreak evaluation, overcoming the critical "one-size-fits-all" constraint of existing multi-dimensional methods, and featuring strong extensibility to flexibly adapt to customized or emerging scenarios. (2) A comprehensive 14-scenario dataset with diverse jailbreak variants and regional cases, filling the long-standing gap in high-quality, holistic benchmarks for scenario-adaptive evaluation. (3) SceneJailEval achieves state-of-the-art results, with an F1 score of 0.917 on our full-scenario dataset (+6% over prior SOTA) and 0.995 on JBB (+3% over prior SOTA), surpassing accuracy limits of existing evaluation methods in heterogeneous scenarios and confirming its advantage.
- Abstract(参考訳): LLMのレッドチームやジェイルブレイク研究には、正確なジェイルブレイク評価が不可欠である。
現在のアプローチではバイナリ分類(例えば、文字列マッチング、有毒テキスト分類器、LLM駆動法)を採用し、害強度を定量化せずに「yes/no」ラベルのみを生成する。
既存の多次元フレームワーク(例えば、セキュリティ違反、相対真理性、インフォーマティブネス)は、シナリオ毎に一様評価基準を適用し、シナリオ固有のミスマッチをもたらす。
1) ジェイルブレイク評価のための画期的なシナリオ適応型多次元フレームワークであり、既存の多次元メソッドの「ワンサイズフィットオール」制約を克服し、カスタマイズされたシナリオや新興シナリオに柔軟に適応するための強力な拡張性を備えている。
2) 多様なジェイルブレイクのバリエーションと地域ケースを持つ包括的14シナリオデータセットは,シナリオ適応評価のための,高品質で総合的なベンチマークの長年のギャップを埋める。
(3) SceneJailEval は実測値に対して 0.917 点,JBB では 0.995 点,JBB では 0.99 点,異種シナリオでは 既存の評価手法の精度限界を超越し,その優位性を確認した。
関連論文リスト
- Enforcing Fairness Where It Matters: An Approach Based on Difference-of-Convex Constraints [12.054667230143803]
我々は、予測モデルにより全てのスコア範囲で完全な公正性を達成することに集中し、ハイスコアとロースコアの両方の人口を確保する。
我々は,他の地域での柔軟性を維持しつつ,意思決定が最優先される中核として,新たな関心点を提案する。
所定のスコア範囲内での公平さを厳格に評価するために,2つの統計指標を導入する。
論文 参考訳(メタデータ) (2025-05-18T19:50:01Z) - SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - GuidedBench: Measuring and Mitigating the Evaluation Discrepancies of In-the-wild LLM Jailbreak Methods [10.603857042090521]
2022年以降,37件のジェイルブレイク研究に基づいて,系統的な測定を行った。
既存の評価システムにはケース特化基準が欠如しており,その有効性や安全性に関する誤解を招く結果が得られた。
GuidedBenchは、キュレートされた有害な質問データセット、詳細なケースバイケース評価ガイドライン、これらのガイドラインと統合された評価システムを含む、新しいベンチマークである。
論文 参考訳(メタデータ) (2025-02-24T06:57:27Z) - Rethinking How to Evaluate Language Model Jailbreak [16.301224741410312]
言語モデルジェイルブレイクを評価するために, 3つの指標, 保護違反, 情報性, 相対真理性を提案する。
3つの悪意のある意図的データセットと3つのジェイルブレイクシステムから生成されたベンチマークデータセットで、我々の測定値を評価する。
論文 参考訳(メタデータ) (2024-04-09T15:54:16Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - UMSE: Unified Multi-scenario Summarization Evaluation [52.60867881867428]
要約品質評価は、テキスト要約における非自明なタスクである。
統一多シナリオ要約評価モデル(UMSE)を提案する。
UMSEは3つの評価シナリオで使用できる能力に係わる最初の統合要約評価フレームワークである。
論文 参考訳(メタデータ) (2023-05-26T12:54:44Z) - Realistic Safety-critical Scenarios Search for Autonomous Driving System
via Behavior Tree [8.286351881735191]
本研究では,行動木に基づくテストフレームワークであるMatrix-Fuzzerを提案し,現実的な安全クリティカルなテストシナリオを自動的に生成する。
提案手法では, 安全クリティカルシナリオのタイプが最も多いが, ベースラインアルゴリズムと比較して, 全体の30%程度しか生成できない。
論文 参考訳(メタデータ) (2023-05-11T06:53:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。