論文の概要: Babel: Jailbreaking Safety Attention via Obfuscation Distribution Optimized Sampling
- arxiv url: http://arxiv.org/abs/2605.17971v1
- Date: Mon, 18 May 2026 07:27:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.992417
- Title: Babel: Jailbreaking Safety Attention via Obfuscation Distribution Optimized Sampling
- Title(参考訳): Babel: 難読化分布最適化サンプリングによる脱獄の安全注意
- Authors: Ziwei Wang, Jing Chen, Ruichao Liang, Zhi Wang, Yebo Feng, Ju Jia, Ruiying Du, Cong Wu, Yang Liu,
- Abstract要約: 大規模言語モデル(LLM)は、ジェイルブレイク攻撃に弱いままである。
我々は,効率的なブラックボックス攻撃フレームワークであるBabelを提案する。
Babelは最先端の攻撃成功率とクエリ効率の向上を実現している。
- 参考スコア(独自算出の注目度): 21.801812957325662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite rigorous safety alignment, Large Language Models (LLMs) remain vulnerable to jailbreak attacks. Existing black-box methods often rely on heuristic templates or exhaustive trials, lacking mechanistic interpretability and query efficiency. In this study, we investigate an intrinsic vulnerability in the safety mechanisms of LLMs, where safety alignment relies on a small set of sparsely distributed attention heads, leaving much of the representational space weakly monitored. We formalize this phenomenon with a mathematical jailbreaking model that characterizes the delicate boundary of effective text obfuscation and analytically explains observed jailbreak behaviors. Guided by this model, we propose Babel, an efficient black-box attack framework that exploits the identified safety gap through systematic obfuscation sampling with iterative, feedback-driven distribution refinement, enabling reliable and high-success jailbreak attacks without access to model internals. Comprehensive evaluations on frontier commercial models demonstrate that Babel achieves state-of-the-art attack success rates and superior query efficiency. Specifically, compared to state-of-the-art methods, Babel increases the attack success rate on GPT-4o from 41.33% to 82.67% and on Claude-3-5-haiku from 38.33% to 78.33% within an average of 40 queries, providing a robust red-teaming methodology for LLMs safety research.
- Abstract(参考訳): 厳格な安全性にもかかわらず、Large Language Models (LLMs) はジェイルブレイク攻撃に弱いままである。
既存のブラックボックス法は、しばしばヒューリスティックなテンプレートや徹底的な試行に頼り、機械的解釈性とクエリ効率に欠ける。
本研究では,LLMの安全性機構における本質的な脆弱性について検討し,安全アライメントは軽微に分散された注意ヘッドのセットに依存し,表現空間の大部分を弱めに監視する。
我々はこの現象を,有効なテキスト難読化の繊細な境界を特徴付ける数学的ジェイルブレイクモデルで定式化し,観察されたジェイルブレイクの挙動を解析的に説明する。
このモデルによって導かれる効率的なブラックボックス攻撃フレームワークであるBabelを提案する。Babelは、系統的難読化サンプリングと反復的かつフィードバック駆動型分布改善により、モデル内部へのアクセスなしに、信頼性が高く、高精度なジェイルブレイク攻撃を可能にする。
フロンティアの商用モデルに関する総合的な評価は、Babelが最先端の攻撃成功率とクエリ効率に優れていることを示す。
具体的には、最先端の手法と比較して、Babel は GPT-4o の攻撃成功率を 41.33% から 82.67% に、Claude-3-5-haiku を 38.33% から 78.33% に引き上げ、LLM の安全研究の堅牢な再設計手法を提供している。
関連論文リスト
- SoK: Robustness in Large Language Models against Jailbreak Attacks [18.3385249246391]
大規模言語モデル(LLM)は目覚ましい成功を収めたが、ジェイルブレイク攻撃の影響を受けやすいままである。
このような攻撃は、現実世界のリスク、安全を損なうこと、信頼を損なうこと、高レベルのアプリケーションにおける規制の遵守を引き起こす。
本稿では,これらの手法を総合的に評価するための総合的多次元フレームワークであるSecurity Cubeを紹介する。
論文 参考訳(メタデータ) (2026-05-06T15:53:17Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Exploring the Vulnerability of the Content Moderation Guardrail in Large Language Models via Intent Manipulation [29.8288014123234]
本研究では,意図認識型ガードレールの脆弱性を調査し,大規模言語モデルが暗黙の意図検出能力を示すことを示す。
IntentPromptという2段階のインテントベースのプロンプトリファインメントフレームワークを提案し、まず有害な問い合わせを構造化されたアウトラインに変換し、さらに宣言的なスタイルの物語に再構成する。
われわれのフレームワークは、最先端のジェイルブレイク手法を一貫して上回り、さらに高度なIntent Analysis(IA)とChain-of-Thought(CoT)ベースの防御を回避している。
論文 参考訳(メタデータ) (2025-05-24T06:47:32Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [55.253208152184065]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves [70.43466586161345]
IDEATORは、ブラックボックスジェイルブレイク攻撃のための悪意のある画像テキストペアを自律的に生成する新しいジェイルブレイク手法である。
最近リリースされたVLM11のベンチマーク結果から,安全性の整合性に大きなギャップがあることが判明した。
例えば、我々はASRをGPT-4oで46.31%、Claude-3.5-Sonnetで19.65%と設定した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。