論文の概要: Jailbreak Distillation: Renewable Safety Benchmarking
- arxiv url: http://arxiv.org/abs/2505.22037v1
- Date: Wed, 28 May 2025 06:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.457635
- Title: Jailbreak Distillation: Renewable Safety Benchmarking
- Title(参考訳): ジェイルブレイクの蒸留: 再利用可能な安全ベンチマーク
- Authors: Jingyu Zhang, Ahmed Elgohary, Xiawei Wang, A S M Iftekhar, Ahmed Magooda, Benjamin Van Durme, Daniel Khashabi, Kyle Jackson,
- Abstract要約: 大規模言語モデル(LLM)は、重要なアプリケーションに急速にデプロイされ、堅牢な安全性ベンチマークの緊急ニーズが高まる。
JBDistill(ジェイルブレイク蒸留)は、ジェイルブレイク攻撃を高品質で容易に更新可能な安全ベンチマークに"拡散"する新しいベンチマーク構築フレームワークである。
- 参考スコア(独自算出の注目度): 42.07193013496905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are rapidly deployed in critical applications, raising urgent needs for robust safety benchmarking. We propose Jailbreak Distillation (JBDistill), a novel benchmark construction framework that "distills" jailbreak attacks into high-quality and easily-updatable safety benchmarks. JBDistill utilizes a small set of development models and existing jailbreak attack algorithms to create a candidate prompt pool, then employs prompt selection algorithms to identify an effective subset of prompts as safety benchmarks. JBDistill addresses challenges in existing safety evaluation: the use of consistent evaluation prompts across models ensures fair comparisons and reproducibility. It requires minimal human effort to rerun the JBDistill pipeline and produce updated benchmarks, alleviating concerns on saturation and contamination. Extensive experiments demonstrate our benchmarks generalize robustly to 13 diverse evaluation models held out from benchmark construction, including proprietary, specialized, and newer-generation LLMs, significantly outperforming existing safety benchmarks in effectiveness while maintaining high separability and diversity. Our framework thus provides an effective, sustainable, and adaptable solution for streamlining safety evaluation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、重要なアプリケーションに急速にデプロイされ、堅牢な安全性ベンチマークの緊急ニーズが高まる。
JBDistill(ジェイルブレイク蒸留)は、ジェイルブレイク攻撃を高品質で容易に更新可能な安全ベンチマークに"拡散"する新しいベンチマーク構築フレームワークである。
JBDistillは、少数の開発モデルと既存のjailbreak攻撃アルゴリズムを使用して、候補プロンプトプールを作成し、その後、プロンプトの有効サブセットを安全ベンチマークとして識別するためにプロンプト選択アルゴリズムを使用する。
JBDistillは、既存の安全性評価における課題に対処する: モデル間の一貫性のある評価プロンプトの使用は、公正な比較と再現性を保証する。
飽和と汚染に対する懸念を軽減するため、JBDistillパイプラインを再実行し、更新されたベンチマークを生成するには、最小限の人的労力が必要である。
総合的な実験により、ベンチマークは、プロプライエタリ、特殊、および新しい世代のLSMを含む、ベンチマーク構築から持ち出された13の多様な評価モデルに頑健に一般化され、高い分離性と多様性を維持しながら、既存の安全ベンチマークを著しく上回ります。
このフレームワークは,安全性評価の合理化に有効な,持続可能な,適応可能なソリューションを提供する。
関連論文リスト
- Think in Safety: Unveiling and Mitigating Safety Alignment Collapse in Multimodal Large Reasoning Model [30.774446187857475]
5つのベンチマークでMLRM(Multimodal Large Reasoning Model)11の安全性評価を行う。
分析の結果、異なるベンチマークで異なる安全性パターンが明らかになった。
これは、モデル固有の推論能力を活用して安全でない意図を検出することで、MLRMの安全性問題に対処する潜在的アプローチである。
論文 参考訳(メタデータ) (2025-05-10T06:59:36Z) - Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。
既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。
本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-22T08:34:35Z) - STShield: Single-Token Sentinel for Real-Time Jailbreak Detection in Large Language Models [31.35788474507371]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対してますます脆弱になっている。
本稿では,リアルタイムジェイルブレイク判定のための軽量フレームワークSTShieldを紹介する。
論文 参考訳(メタデータ) (2025-03-23T04:23:07Z) - MetaSC: Test-Time Safety Specification Optimization for Language Models [0.6526824510982799]
モデル重みを変更することなく、推論時に言語モデル(LM)の安全性推論を最適化する新しい動的安全フレームワークを提案する。
我々は、安全プロンプト仕様を反復的に更新して、批判と修正プロセスを適応的に駆動するメタ批判機構を活用する。
論文 参考訳(メタデータ) (2025-02-11T22:06:25Z) - STAIR: Improving Safety Alignment with Introspective Reasoning [44.780098674618614]
SafeTyアライメントとItrospective Reasoningを統合したフレームワークSTAIRを提案する。
その結果,STAIRは本能的アライメント戦略と比較して,有害なアウトプットを効果的に軽減し,有用性を保っていることがわかった。
テスト時のスケーリングでは、STAIRは一般的なジェイルブレイク攻撃に対して、Claude-3.5に匹敵する安全性能を達成する。
論文 参考訳(メタデータ) (2025-02-04T15:02:55Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。