論文の概要: The Great Pretender: A Stochasticity Problem in LLM Jailbreak
- arxiv url: http://arxiv.org/abs/2605.14418v1
- Date: Thu, 14 May 2026 06:05:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.653245
- Title: The Great Pretender: A Stochasticity Problem in LLM Jailbreak
- Title(参考訳): LLMジェイルブレイクの確率問題
- Authors: Jean-Philippe Monteuuis, Cong Chen, Jonathan Petit,
- Abstract要約: 攻撃評価だけでなく,攻撃発生時の敵意の影響についても検討した。
我々の評価フレームワークであるCAS-evalは、ジェイルブレイクプロンプトが複数の試みで成功する必要がある場合、攻撃が最大30ポイントのASR低下を達成できることを示している。
- 参考スコア(独自算出の注目度): 4.092493997270006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: "Oh-Oh, yes, I'm the great pretender. Pretending that I'm doing well. My need is such, I pretend too much..." summarizes the state in the area of jailbreak creation and evaluation. You find this method to generate adversarial attacks proposed by a reputable institution (e.g., BoN from Anthropic or Crescendo from Microsoft Research). However, this method does not deliver on the promise claimed in the paper despite having top ASR scores against industry-grade LLMs. You successfully generate the jailbreak prompts against your target (open) model. However, the generated jailbreak prompt works against the target model with a 50% consecutive success rate (5 out of 10 attempts) despite having an 80% ASR (on paper) on the latest closed-source model (with a guardrail system)! This observation leads us to think. First, Attack Success Rate (ASR), the primary metric for LLM jailbreak benchmarking, is not a stable quantity. Second, published ASR numbers are therefore systematically inflated and incomparable across papers. Therefore, we wonder "Why a successful jailbreak prompt does not perform consistently well against a target model on which the prompts have been optimized?". To answer this question, we study the impact of stochasticity not only during attack evaluation but also during attack generation. Our evaluation includes several jailbreak attacks, models (different sizes and providers), and judges. In addition, we propose a new metric and two new frameworks (CAS-eval and CAS-gen). Our evaluation framework, CAS-eval, shows that an attack can have an ASR drop of up to 30 percentage points when a jailbreak prompt needs to succeed on more than one attempt. Thankfully, our attack generation framework (CAS-gen) improves previous jailbreak methods and helps them recover this loss of 30 percentage points!
- Abstract(参考訳): 「ああ、ああ、私は偉大なふりをする人です。私は元気にやっています。そんなふりをしすぎます。」とジェイルブレイクの創造と評価の領域の状況を要約します。
この方法では、信頼できる機関によって提案された敵攻撃(例えば、Microsoft ResearchのAnthropicやCrescendoのBoNなど)を生成することができる。
しかし、この手法は業界グレードのLSMに対してトップのASRスコアを持つにもかかわらず、論文で主張されている約束を果たさない。
ターゲット(オープン)モデルに対して、ジェイルブレイクプロンプトをうまく生成します。
しかし、生成されたジェイルブレイクは、最新のクローズドソースモデル(ガードレールシステム付き)に80%のASR(紙上)を持つにもかかわらず、50%連続の成功率(10回中5回)でターゲットモデルに対して迅速に動作する。
この観察は私たちが考えるのに繋がる。
第一に、LLMジェイルブレイクベンチマークの主要な指標であるアタック成功率(ASR)は、安定した量ではない。
第二に、公表されたASR番号は体系的に膨らませられ、論文間で比較できない。
したがって、なぜ成功したジェイルブレイクプロンプトが、プロンプトが最適化されたターゲットモデルに対して一貫して機能しないのか?
そこで本研究では,攻撃評価における確率性の影響だけでなく,攻撃発生時の確率性への影響についても検討する。
私たちの評価には、いくつかのジェイルブレイク攻撃、モデル(異なるサイズとプロバイダ)、および裁判官が含まれています。
さらに、新しいメトリクスと2つの新しいフレームワーク(CAS-evalとCAS-gen)を提案する。
我々の評価フレームワークであるCAS-evalは、ジェイルブレイクプロンプトが複数の試みで成功する必要がある場合、攻撃が最大30ポイントのASR低下を達成できることを示している。
幸いなことに、攻撃生成フレームワーク(CAS-gen)は以前のジェイルブレイク手法を改善し、30ポイントの損失を回復するのに役立ちます。
関連論文リスト
- Minimal, Local, Causal Explanations for Jailbreak Success in Large Language Models [11.120817376473385]
安全訓練された大規模言語モデル(LLM)は、しばしばジェイルブレイクプロンプトを通じて有害な要求に答えるために誘導される。
そこで我々は,Jailbreakの成功をローカル,CAUSalに説明するためのメソッドであるLOCAを紹介した。
論文 参考訳(メタデータ) (2026-04-30T18:22:19Z) - Proactive defense against LLM Jailbreak [28.249786308207046]
ProActは、自律的な脱獄プロセスを妨害し、誤解を招くように設計された、新しいプロアクティブな防御フレームワークである。
本手法は攻撃成功率を最大92%削減する。
論文 参考訳(メタデータ) (2025-10-06T17:32:40Z) - Rapid Response: Mitigating LLM Jailbreaks with a Few Examples [13.841146655178585]
我々は,少数の攻撃を観測した後に,脱獄のクラス全体をブロックするために,迅速な応答手法を開発した。
我々は5つの迅速応答法を評価し,それぞれがジェイルブレイク増殖を利用した。
我々の最強の方法は、ジェイルブレイクの非分配セットで240以上、アウト・オブ・ディストリビューションセットで15以上、攻撃成功率で240以上削減する。
論文 参考訳(メタデータ) (2024-11-12T02:44:49Z) - SQL Injection Jailbreak: A Structural Disaster of Large Language Models [71.55108680517422]
大規模言語モデル(LLM)は、有害なコンテンツを生成するよう誘導するジェイルブレイク攻撃の影響を受けやすい。
本稿では,LLMの外部特性をターゲットとした新しいジェイルブレイク手法を提案する。
ユーザプロンプトにジェイルブレイク情報を注入することで、SIJは有害なコンテンツを出力するモデルをうまく誘導する。
論文 参考訳(メタデータ) (2024-11-03T13:36:34Z) - JailbreakRadar: Comprehensive Assessment of Jailbreak Attacks Against LLMs [26.981225219312627]
様々なジェイルブレイク攻撃の大規模評価を行う。
我々は17の代表的なジェイルブレイク攻撃を収集し、それらの特徴を要約し、新しいジェイルブレイク攻撃分類を確立した。
論文 参考訳(メタデータ) (2024-02-08T13:42:50Z) - Weak-to-Strong Jailbreaking on Large Language Models [92.52448762164926]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。