論文の概要: Jailbreak Foundry: From Papers to Runnable Attacks for Reproducible Benchmarking
- arxiv url: http://arxiv.org/abs/2602.24009v2
- Date: Mon, 02 Mar 2026 07:06:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 15:39:04.026
- Title: Jailbreak Foundry: From Papers to Runnable Attacks for Reproducible Benchmarking
- Title(参考訳): Jailbreak Foundry: ペーパーから再現可能なベンチマークのための実行可能なアタックへ
- Authors: Zhicheng Fang, Jingjie Zheng, Chenxu Fu, Wei Xu,
- Abstract要約: 本稿では,JAILBREAK FOUNDRY(JBF)について紹介する。
30回以上の攻撃を再現すると、JBFは平均(再現された報告された)攻撃成功率(ASR)を+0.26ポイントの偏差で高忠実度を達成する。
このシステムは、一貫したGPT-4o判定器を用いて、10の犠牲者モデルにわたる30の攻撃の標準AdvBench評価を可能にする。
- 参考スコア(独自算出の注目度): 6.316746905356459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Jailbreak techniques for large language models (LLMs) evolve faster than benchmarks, making robustness estimates stale and difficult to compare across papers due to drift in datasets, harnesses, and judging protocols. We introduce JAILBREAK FOUNDRY (JBF), a system that addresses this gap via a multi-agent workflow to translate jailbreak papers into executable modules for immediate evaluation within a unified harness. JBF features three core components: (i) JBF-LIB for shared contracts and reusable utilities; (ii) JBF-FORGE for the multi-agent paper-to-module translation; and (iii) JBF-EVAL for standardizing evaluations. Across 30 reproduced attacks, JBF achieves high fidelity with a mean (reproduced-reported) attack success rate (ASR) deviation of +0.26 percentage points. By leveraging shared infrastructure, JBF reduces attack-specific implementation code by nearly half relative to original repositories and achieves an 82.5% mean reused-code ratio. This system enables a standardized AdvBench evaluation of all 30 attacks across 10 victim models using a consistent GPT-4o judge. By automating both attack integration and standardized evaluation, JBF offers a scalable solution for creating living benchmarks that keep pace with the rapidly shifting security landscape.
- Abstract(参考訳): 大規模言語モデル(LLM)のジェイルブレイクテクニックは、ベンチマークよりも高速に進化し、データセットやハーネス、プロトコルの判断などにより、論文間での堅牢性の推定が不安定で、比較が難しい。
本稿では,JAILBREAK FOUNDRY (JBF) を紹介した。JAILBREAK FOUNDRY(JBF)は,JAILBREAK文書を実行可能なモジュールに変換し,統一ハーネス内で即時評価するシステムである。
JBFは3つのコアコンポーネントを備えている。
一 共有契約及び再使用事業のためのJBF-LIB
(ii)JBF-FORGE
三 評価の標準化のためのJBF-EVAL
30回以上の攻撃を再現すると、JBFは平均(再現された報告された)攻撃成功率(ASR)を+0.26ポイントの偏差で高忠実度を達成する。
共有インフラストラクチャを利用することで、JBFはアタック固有の実装コードを元のリポジトリと比べてほぼ半分削減し、82.5%の平均再利用コード比率を達成した。
このシステムは、一貫したGPT-4o判定器を用いて、10の犠牲者モデルにわたる30の攻撃の標準AdvBench評価を可能にする。
攻撃統合と標準化された評価の両方を自動化することで、JBFは、急速に変化するセキュリティ状況に追従する、生きたベンチマークを作成するためのスケーラブルなソリューションを提供する。
関連論文リスト
- ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - OmniSafeBench-MM: A Unified Benchmark and Toolbox for Multimodal Jailbreak Attack-Defense Evaluation [94.61617176929384]
OmniSafeBench-MMはマルチモーダル・ジェイルブレイク攻撃防御評価のための総合ツールボックスである。
13の代表的な攻撃方法と15の防衛戦略、9つの主要なリスクドメインと50のきめ細かいカテゴリにまたがる多様なデータセットを統合している。
データ、方法論、評価をオープンソースで再現可能なプラットフォームに統合することで、OmniSafeBench-MMは将来の研究のための標準化された基盤を提供する。
論文 参考訳(メタデータ) (2025-12-06T22:56:29Z) - Breaking the Code: Security Assessment of AI Code Agents Through Systematic Jailbreaking Attacks [11.371490212283383]
コード対応の大規模言語モデル(LLM)エージェントはソフトウェア工学に組み込まれ、コードを読み、書き、実行することができる。
JAWS-BENCHは、3つのエスカレーションワークスペースにまたがるベンチマークであり、攻撃能力を反映している。
JAWS-0のプロンプトのみの条件下では、コードエージェントは平均して61%の攻撃を受けており、58%が有害、52%がパース、27%がエンドツーエンドで実行される。
論文 参考訳(メタデータ) (2025-10-01T18:38:20Z) - Latent Fusion Jailbreak: Blending Harmful and Harmless Representations to Elicit Unsafe LLM Outputs [16.25742791802536]
本稿では、有害なクエリペアから隠れた状態を補間し、禁止された応答を誘発する表現ベースの攻撃であるLatent Fusion Jailbreak(LFJ)を紹介する。
AdvBenchやMaliciousInstructといったベンチマークによるVicunaやLLaMA-2などのモデルの評価では、平均攻撃成功率(ASR)は94.01%となり、既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-08-08T17:29:16Z) - Jailbreak Distillation: Renewable Safety Benchmarking [42.07193013496905]
大規模言語モデル(LLM)は、重要なアプリケーションに急速にデプロイされ、堅牢な安全性ベンチマークの緊急ニーズが高まる。
JBDistill(ジェイルブレイク蒸留)は、ジェイルブレイク攻撃を高品質で容易に更新可能な安全ベンチマークに"拡散"する新しいベンチマーク構築フレームワークである。
論文 参考訳(メタデータ) (2025-05-28T06:59:46Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Prompt, Divide, and Conquer: Bypassing Large Language Model Safety Filters via Segmented and Distributed Prompt Processing [1.4201040196058878]
大規模言語モデル(LLM)はタスクの自動化とさまざまな領域にわたるコンテンツ生成を変革した。
本稿では,分散プロンプト処理と反復改良を組み合わせた新しいジェイルブレイク機構を導入し,安全性対策を回避した。
10のサイバーセキュリティカテゴリで500の悪意あるプロンプトでテストされたこのフレームワークは、悪意のあるコードを生成する上で73.2%の成功率(SR)を達成した。
論文 参考訳(メタデータ) (2025-03-27T15:19:55Z) - GuidedBench: Measuring and Mitigating the Evaluation Discrepancies of In-the-wild LLM Jailbreak Methods [10.603857042090521]
2022年以降,37件のジェイルブレイク研究に基づいて,系統的な測定を行った。
既存の評価システムにはケース特化基準が欠如しており,その有効性や安全性に関する誤解を招く結果が得られた。
GuidedBenchは、キュレートされた有害な質問データセット、詳細なケースバイケース評価ガイドライン、これらのガイドラインと統合された評価システムを含む、新しいベンチマークである。
論文 参考訳(メタデータ) (2025-02-24T06:57:27Z) - FlexiGPT: Pruning and Extending Large Language Models with Low-Rank Weight Sharing [59.12511498024836]
本稿では,重み付けスコアに基づいてモデルブロックを選択的にプルーする大規模言語モデル(LLM)をプルーする手法を提案する。
重み共有機構を用いて各刈り込みブロックを置換する原理的計量を提案する。
経験的評価は、既存の方法よりも大幅にパフォーマンスが向上したことを示している。
論文 参考訳(メタデータ) (2025-01-24T18:46:37Z) - Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。
本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。
この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
論文 参考訳(メタデータ) (2024-05-28T06:10:12Z) - JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models [123.66104233291065]
ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。
これらの攻撃を評価することは、現在のベンチマークと評価テクニックの収集が適切に対処していない、多くの課題を提示します。
JailbreakBenchは、以下のコンポーネントを備えたオープンソースのベンチマークである。
論文 参考訳(メタデータ) (2024-03-28T02:44:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。