論文の概要: Boundary Point Jailbreaking of Black-Box LLMs
- arxiv url: http://arxiv.org/abs/2602.15001v1
- Date: Mon, 16 Feb 2026 18:29:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.629503
- Title: Boundary Point Jailbreaking of Black-Box LLMs
- Title(参考訳): ブラックボックスLLMの境界点脱獄
- Authors: Xander Davies, Giorgi Giglemiani, Edmund Lau, Eric Winsor, Geoffrey Irving, Yarin Gal,
- Abstract要約: 我々は,新しい自動ジェイルブレイク攻撃のクラスである境界点ジェイルブレイク(BPJ)を紹介した。
BPJは完全にブラックボックスで、クエリ毎にたった1ビットの情報のみを使用する。
BPJは、憲法違反に対する普遍的ジェイルブレイクの開発に成功した最初の完全自動攻撃アルゴリズムであると考えています。
- 参考スコア(独自算出の注目度): 22.806138486774202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frontier LLMs are safeguarded against attempts to extract harmful information via adversarial prompts known as "jailbreaks". Recently, defenders have developed classifier-based systems that have survived thousands of hours of human red teaming. We introduce Boundary Point Jailbreaking (BPJ), a new class of automated jailbreak attacks that evade the strongest industry-deployed safeguards. Unlike previous attacks that rely on white/grey-box assumptions (such as classifier scores or gradients) or libraries of existing jailbreaks, BPJ is fully black-box and uses only a single bit of information per query: whether or not the classifier flags the interaction. To achieve this, BPJ addresses the core difficulty in optimising attacks against robust real-world defences: evaluating whether a proposed modification to an attack is an improvement. Instead of directly trying to learn an attack for a target harmful string, BPJ converts the string into a curriculum of intermediate attack targets and then actively selects evaluation points that best detect small changes in attack strength ("boundary points"). We believe BPJ is the first fully automated attack algorithm that succeeds in developing universal jailbreaks against Constitutional Classifiers, as well as the first automated attack algorithm that succeeds against GPT-5's input classifier without relying on human attack seeds. BPJ is difficult to defend against in individual interactions but incurs many flags during optimisation, suggesting that effective defence requires supplementing single-interaction methods with batch-level monitoring.
- Abstract(参考訳): 辺境のLSMは「ジェイルブレイク」と呼ばれる敵のプロンプトを通じて有害な情報を抽出する試みに対して保護されている。
最近、ディフェンダーは、何千時間ものレッドチームで生き残った分類器ベースのシステムを開発した。
我々は、業界最強の安全対策を回避する新しいタイプの自動脱獄攻撃であるBoundary Point Jailbreaking(BPJ)を紹介した。
従来のホワイト/グレーボックスの仮定(分類器のスコアや勾配など)や既存のjailbreakのライブラリに依存する攻撃とは異なり、BPJは完全にブラックボックスであり、クエリ毎に1ビットの情報のみを使用する。
これを達成するためにBPJは、堅牢な現実世界の防衛に対する攻撃を最適化する上で、中核的な困難に対処する。
標的の有害な文字列に対する攻撃を直接学習する代わりに、BPJは文字列を中間攻撃目標のカリキュラムに変換し、攻撃強度の小さな変化を最も検出する評価ポイントを積極的に選択する("boundary points")。
BPJは,GPT-5の入力分類器に対して人間の攻撃種別に依存しない最初の自動攻撃アルゴリズムであると同時に,憲法分類器に対する普遍的ジェイルブレイクの開発に成功した最初の完全自動攻撃アルゴリズムであると考えている。
BPJは個別のインタラクションでは防御が難しいが、最適化中に多くのフラグを発生させるため、効果的な防御にはバッチレベルの監視による単一インタラクションメソッドの補完が必要であることが示唆されている。
関連論文リスト
- Fine-Tuning Jailbreaks under Highly Constrained Black-Box Settings: A Three-Pronged Approach [7.605338172738699]
我々は,データセットのみのブラックボックスファインチューニングインタフェースの下で,プロバイダの防御に対する3段階のジェイルブレイク攻撃を示す。
我々の攻撃には、安全スタイルの接頭辞/接尾辞ラッパー、敏感なトークンの良質な語彙エンコーディング(アンダースコーディング)、バックドア機構が組み合わされている。
実世界の展開において,本手法はOpenAIプラットフォーム上でGPT-4.1とGPT-4oをジェイルブレークし,攻撃成功率は両モデルともに97%以上である。
論文 参考訳(メタデータ) (2025-10-01T18:14:13Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - Robust Prompt Optimization for Defending Language Models Against Jailbreaking Attacks [17.22989422489567]
大規模言語モデル(LLM)は敵の攻撃や脱獄に対して脆弱である。
本稿では,LLMをジェイルブレイク攻撃から守るための最適化に基づく目標と,堅牢なシステムレベルの防御を実現するアルゴリズムを提案する。
GPT-4の攻撃成功率(ASR)は6%,Llama-2の攻撃成功率(ASR)は0%に低下した。
論文 参考訳(メタデータ) (2024-01-30T18:56:08Z) - Weak-to-Strong Jailbreaking on Large Language Models [92.52448762164926]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。