論文の概要: Jailbreak Distillation: Renewable Safety Benchmarking
- arxiv url: http://arxiv.org/abs/2505.22037v1
- Date: Wed, 28 May 2025 06:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.457635
- Title: Jailbreak Distillation: Renewable Safety Benchmarking
- Title(参考訳): ジェイルブレイクの蒸留: 再利用可能な安全ベンチマーク
- Authors: Jingyu Zhang, Ahmed Elgohary, Xiawei Wang, A S M Iftekhar, Ahmed Magooda, Benjamin Van Durme, Daniel Khashabi, Kyle Jackson,
- Abstract要約: 大規模言語モデル(LLM)は、重要なアプリケーションに急速にデプロイされ、堅牢な安全性ベンチマークの緊急ニーズが高まる。
JBDistill(ジェイルブレイク蒸留)は、ジェイルブレイク攻撃を高品質で容易に更新可能な安全ベンチマークに"拡散"する新しいベンチマーク構築フレームワークである。
- 参考スコア(独自算出の注目度): 42.07193013496905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are rapidly deployed in critical applications, raising urgent needs for robust safety benchmarking. We propose Jailbreak Distillation (JBDistill), a novel benchmark construction framework that "distills" jailbreak attacks into high-quality and easily-updatable safety benchmarks. JBDistill utilizes a small set of development models and existing jailbreak attack algorithms to create a candidate prompt pool, then employs prompt selection algorithms to identify an effective subset of prompts as safety benchmarks. JBDistill addresses challenges in existing safety evaluation: the use of consistent evaluation prompts across models ensures fair comparisons and reproducibility. It requires minimal human effort to rerun the JBDistill pipeline and produce updated benchmarks, alleviating concerns on saturation and contamination. Extensive experiments demonstrate our benchmarks generalize robustly to 13 diverse evaluation models held out from benchmark construction, including proprietary, specialized, and newer-generation LLMs, significantly outperforming existing safety benchmarks in effectiveness while maintaining high separability and diversity. Our framework thus provides an effective, sustainable, and adaptable solution for streamlining safety evaluation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、重要なアプリケーションに急速にデプロイされ、堅牢な安全性ベンチマークの緊急ニーズが高まる。
JBDistill(ジェイルブレイク蒸留)は、ジェイルブレイク攻撃を高品質で容易に更新可能な安全ベンチマークに"拡散"する新しいベンチマーク構築フレームワークである。
JBDistillは、少数の開発モデルと既存のjailbreak攻撃アルゴリズムを使用して、候補プロンプトプールを作成し、その後、プロンプトの有効サブセットを安全ベンチマークとして識別するためにプロンプト選択アルゴリズムを使用する。
JBDistillは、既存の安全性評価における課題に対処する: モデル間の一貫性のある評価プロンプトの使用は、公正な比較と再現性を保証する。
飽和と汚染に対する懸念を軽減するため、JBDistillパイプラインを再実行し、更新されたベンチマークを生成するには、最小限の人的労力が必要である。
総合的な実験により、ベンチマークは、プロプライエタリ、特殊、および新しい世代のLSMを含む、ベンチマーク構築から持ち出された13の多様な評価モデルに頑健に一般化され、高い分離性と多様性を維持しながら、既存の安全ベンチマークを著しく上回ります。
このフレームワークは,安全性評価の合理化に有効な,持続可能な,適応可能なソリューションを提供する。
関連論文リスト
- RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - Automated Safety Benchmarking: A Multi-agent Pipeline for LVLMs [61.01470415470677]
大規模視覚言語モデル(LVLM)は、クロスモーダルタスクにおいて顕著な能力を示すが、重大な安全性上の課題に直面している。
既存のベンチマークは、労働集約的な建設プロセス、静的な複雑さ、限定的な差別力によって妨げられている。
LVLMの安全性ベンチマークのための最初の自動システムであるVLSafetyBencherを提案する。
論文 参考訳(メタデータ) (2026-01-27T11:51:30Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - CARE: Decoding Time Safety Alignment via Rollback and Introspection Intervention [68.95008546581339]
Contrastive Decodingのような既存のデコーディングタイムの介入は、安全と応答品質の間に深刻なトレードオフを強いることが多い。
本稿では,3つの重要なコンポーネントを統合した,復号時安全アライメントのための新しいフレームワークであるCAREを提案する。
このフレームワークは、安全性、品質、効率のバランスが良く、有害な応答率が低く、ユーザエクスペリエンスを最小限に破壊できる。
論文 参考訳(メタデータ) (2025-09-01T04:50:02Z) - SafeTuneBed: A Toolkit for Benchmarking LLM Safety Alignment in Fine-Tuning [6.740032154591022]
ベンチマークとツールキットであるSafeTuneBedを導入し、微調整と防御の評価を統一する。
SafeTuneBedは、感情分析、質問回答、マルチステップ推論、オープンな命令タスクにまたがる、複数の微調整データセットの多様なリポジトリをキュレートする。
これは、アライメントステージの免疫、訓練中の安全ガード、訓練後の修復など、最先端の防衛の統合を可能にする。
論文 参考訳(メタデータ) (2025-05-31T19:00:58Z) - SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning [76.56522719330911]
大規模推論モデル(LRM)は、応答する前に明示的に推論する新しい世代パラダイムを導入する。
LRMは有害なクエリや敵の攻撃に対して大きな安全リスクをもたらす。
キー文中の安全アハモーメントをより活性化するSafeKeyを提案する。
論文 参考訳(メタデータ) (2025-05-22T03:46:03Z) - Think in Safety: Unveiling and Mitigating Safety Alignment Collapse in Multimodal Large Reasoning Model [30.774446187857475]
5つのベンチマークでMLRM(Multimodal Large Reasoning Model)11の安全性評価を行う。
分析の結果、異なるベンチマークで異なる安全性パターンが明らかになった。
これは、モデル固有の推論能力を活用して安全でない意図を検出することで、MLRMの安全性問題に対処する潜在的アプローチである。
論文 参考訳(メタデータ) (2025-05-10T06:59:36Z) - Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。
既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。
本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-22T08:34:35Z) - STShield: Single-Token Sentinel for Real-Time Jailbreak Detection in Large Language Models [31.35788474507371]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対してますます脆弱になっている。
本稿では,リアルタイムジェイルブレイク判定のための軽量フレームワークSTShieldを紹介する。
論文 参考訳(メタデータ) (2025-03-23T04:23:07Z) - MetaSC: Test-Time Safety Specification Optimization for Language Models [0.6526824510982799]
モデル重みを変更することなく、推論時に言語モデル(LM)の安全性推論を最適化する新しい動的安全フレームワークを提案する。
我々は、安全プロンプト仕様を反復的に更新して、批判と修正プロセスを適応的に駆動するメタ批判機構を活用する。
論文 参考訳(メタデータ) (2025-02-11T22:06:25Z) - STAIR: Improving Safety Alignment with Introspective Reasoning [44.780098674618614]
SafeTyアライメントとItrospective Reasoningを統合したフレームワークSTAIRを提案する。
その結果,STAIRは本能的アライメント戦略と比較して,有害なアウトプットを効果的に軽減し,有用性を保っていることがわかった。
テスト時のスケーリングでは、STAIRは一般的なジェイルブレイク攻撃に対して、Claude-3.5に匹敵する安全性能を達成する。
論文 参考訳(メタデータ) (2025-02-04T15:02:55Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。