論文の概要: LLM Jailbreak Oracle
- arxiv url: http://arxiv.org/abs/2506.17299v1
- Date: Tue, 17 Jun 2025 20:37:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.323737
- Title: LLM Jailbreak Oracle
- Title(参考訳): LLM Jailbreak Oracle
- Authors: Shuyi Lin, Anshuman Suri, Alina Oprea, Cheng Tan,
- Abstract要約: 我々は、ジェイルブレイクオラクル問題を解決するための最初の効率的なアルゴリズムであるBoaを紹介する。
Boaは、体系的な防衛評価、レッドチーム攻撃の標準化された比較、極端な敵の条件下でのモデルの認証を含む厳格なセキュリティアセスメントを可能にする。
- 参考スコア(独自算出の注目度): 8.00884776306068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) become increasingly deployed in safety-critical applications, the lack of systematic methods to assess their vulnerability to jailbreak attacks presents a critical security gap. We introduce the jailbreak oracle problem: given a model, prompt, and decoding strategy, determine whether a jailbreak response can be generated with likelihood exceeding a specified threshold. This formalization enables a principled study of jailbreak vulnerabilities. Answering the jailbreak oracle problem poses significant computational challenges -- the search space grows exponentially with the length of the response tokens. We present Boa, the first efficient algorithm for solving the jailbreak oracle problem. Boa employs a three-phase search strategy: (1) constructing block lists to identify refusal patterns, (2) breadth-first sampling to identify easily accessible jailbreaks, and (3) depth-first priority search guided by fine-grained safety scores to systematically explore promising low-probability paths. Boa enables rigorous security assessments including systematic defense evaluation, standardized comparison of red team attacks, and model certification under extreme adversarial conditions.
- Abstract(参考訳): 大規模言語モデル(LLM)が安全クリティカルなアプリケーションにますますデプロイされるにつれて、ジェイルブレイク攻撃に対する脆弱性を評価するための体系的な手法が欠如していることは、重大なセキュリティギャップを示している。
モデル,プロンプト,デコード戦略が与えられた場合,特定しきい値を超える確率でジェイルブレイク応答を生成できるかどうかを判定する。
この形式化は、ジェイルブレイクの脆弱性の原則的な研究を可能にする。
ジェイルブレイクのオラクル問題への答えは、大きな計算上の課題を生じさせ、検索空間は応答トークンの長さとともに指数関数的に成長する。
我々は、ジェイルブレイクオラクル問題を解決するための最初の効率的なアルゴリズムであるBoaを紹介する。
ボアは,(1)拒絶パターンを識別するためのブロックリストの構築,(2)容易にアクセス可能なジェイルブレイクを識別するための幅優先サンプリング,(3)詳細な安全性スコアで導かれる深度優先探索により,予測可能な低確率パスを体系的に探索する,という3段階の探索戦略を採用している。
Boaは、体系的な防衛評価、レッドチーム攻撃の標準化された比較、極端な敵の条件下でのモデルの認証を含む厳格なセキュリティアセスメントを可能にする。
関連論文リスト
- Exploring Jailbreak Attacks on LLMs through Intent Concealment and Diversion [1.0291559330120414]
大規模言語モデル(LLM)は目覚ましい進歩を遂げているが、そのセキュリティは依然として懸念されている。
主要な脅威の1つはジェイルブレイク攻撃であり、敵はモデル保護をバイパスして有害または好ましくないコンテンツを生成する。
Intent ConcealmentとdivErsionを用いてセキュリティ制約を効果的に回避する新しいブラックボックスジェイルブレイク手法ICEを提案する。
論文 参考訳(メタデータ) (2025-05-20T13:03:15Z) - JailDAM: Jailbreak Detection with Adaptive Memory for Vision-Language Model [25.204224437843365]
マルチモーダル大規模言語モデル (MLLM) は視覚言語タスクに優れるが、有害なコンテンツを生成する大きなリスクを生じさせる。
ジェイルブレイク攻撃は、モデル内の安全メカニズムを回避し、不適切なコンテンツや安全でないコンテンツを生成する意図的な操作を指す。
JAILDAMと呼ばれるテスト時間適応フレームワークを導入し、これらの問題に対処する。
論文 参考訳(メタデータ) (2025-04-03T05:00:28Z) - JBShield: Defending Large Language Models from Jailbreak Attacks through Activated Concept Analysis and Manipulation [22.75124155879712]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に弱いままである。
本稿では,JBShield-DとJBShield-Mの2つの主要コンポーネントからなる総合的ジェイルブレイク防御フレームワークJBShieldを提案する。
論文 参考訳(メタデータ) (2025-02-11T13:50:50Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models [123.66104233291065]
ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。
これらの攻撃を評価することは、現在のベンチマークと評価テクニックの収集が適切に対処していない、多くの課題を提示します。
JailbreakBenchは、以下のコンポーネントを備えたオープンソースのベンチマークである。
論文 参考訳(メタデータ) (2024-03-28T02:44:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。