論文の概要: Guarding the Guardrails: A Taxonomy-Driven Approach to Jailbreak Detection
- arxiv url: http://arxiv.org/abs/2510.13893v1
- Date: Tue, 14 Oct 2025 12:34:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.518671
- Title: Guarding the Guardrails: A Taxonomy-Driven Approach to Jailbreak Detection
- Title(参考訳): ガードレールのガード: 分類による脱獄検出のアプローチ
- Authors: Olga E. Sorokoletova, Francesco Giarrusso, Vincenzo Suriani, Daniele Nardi,
- Abstract要約: 脱獄技術は、大規模言語モデルの安全性に重大な脅威をもたらす。
ジェイルブレイク技術の有効性の理解を深めるために,構造化されたレッドチームチャレンジを実施した。
我々は、50のジェイルブレイク戦略の包括的な階層的な分類法を開発し、以前の分類を7つの広い家族に集約し拡張した。
- 参考スコア(独自算出の注目度): 1.8374319565577155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Jailbreaking techniques pose a significant threat to the safety of Large Language Models (LLMs). Existing defenses typically focus on single-turn attacks, lack coverage across languages, and rely on limited taxonomies that either fail to capture the full diversity of attack strategies or emphasize risk categories rather than the jailbreaking techniques. To advance the understanding of the effectiveness of jailbreaking techniques, we conducted a structured red-teaming challenge. The outcome of our experiments are manifold. First, we developed a comprehensive hierarchical taxonomy of 50 jailbreak strategies, consolidating and extending prior classifications into seven broad families, including impersonation, persuasion, privilege escalation, cognitive overload, obfuscation, goal conflict, and data poisoning. Second, we analyzed the data collected from the challenge to examine the prevalence and success rates of different attack types, providing insights into how specific jailbreak strategies exploit model vulnerabilities and induce misalignment. Third, we benchmark a popular LLM for jailbreak detection, evaluating the benefits of taxonomy-guided prompting for improving automatic detection. Finally, we compiled a new Italian dataset of 1364 multi-turn adversarial dialogues, annotated with our taxonomy, enabling the study of interactions where adversarial intent emerges gradually and succeeds in bypassing traditional safeguards.
- Abstract(参考訳): 脱獄技術は、Large Language Models (LLM) の安全性に重大な脅威をもたらす。
既存の防衛は、典型的には単一ターン攻撃に焦点を合わせ、言語を対象とせず、攻撃戦略の完全な多様性を捉えるのに失敗したり、脱獄技術よりもリスクカテゴリーを強調するような限られた分類体系に依存している。
ジェイルブレイク技術の有効性の理解を深めるために,構造化されたレッドチームチャレンジを実施した。
実験の結果は多様体である。
まず,50のジェイルブレイク戦略の包括的階層的分類法を開発し,先行分類を,偽装,説得,特権エスカレーション,認知過負荷,難読化,ゴールコンフリクト,データ中毒を含む7つの広い家族に集約・拡張した。
第2に、異なる攻撃タイプの頻度と成功率を調べるための課題から収集したデータを分析し、特定のジェイルブレイク戦略がモデル脆弱性をどのように悪用し、誤調整を誘発するかを洞察した。
第3に、ジェイルブレイク検出に人気のあるLCMをベンチマークし、自動検出を改善するための分類誘導プロンプトの利点を評価した。
最後に, イタリアで新たに1364件の多ターン対外対話データセットを作成した。これは我々の分類に注釈を付けたもので, 対外意図が徐々に出現する相互作用の研究を可能にし, 従来の安全を回避した。
関連論文リスト
- A Domain-Based Taxonomy of Jailbreak Vulnerabilities in Large Language Models [6.946931840176725]
この研究は特に、jailbreakの脆弱性の課題に焦点を当てている。
大規模な言語モデルの訓練領域に根ざした新しいジェイルブレイク攻撃の分類を導入している。
論文 参考訳(メタデータ) (2025-04-07T12:05:16Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - What Features in Prompts Jailbreak LLMs? Investigating the Mechanisms Behind Attacks [8.485286811635557]
本研究では,35種類の攻撃方法にまたがる10,800件のジェイルブレイク試行からなる新しいデータセットを提案する。
我々は、プロンプトトークンに対応する潜在表現を使用して、失敗したジェイルブレイクから成功したプローブを分類するように訓練する。
これは、異なるジェイルブレイク戦略が、異なる非線形、非ユニバーサルの機能を悪用していることを明らかにする。
論文 参考訳(メタデータ) (2024-11-02T17:29:47Z) - Transferable Ensemble Black-box Jailbreak Attacks on Large Language Models [0.0]
我々は,様々なLSM-as-Attackerメソッドを組み込んだ新しいブラックボックス・ジェイルブレイク攻撃フレームワークを提案する。
本手法は,既存のジェイルブレイク研究と実践から得られた3つの重要な知見に基づいて設計されている。
論文 参考訳(メタデータ) (2024-10-31T01:55:33Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models [123.66104233291065]
ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。
これらの攻撃を評価することは、現在のベンチマークと評価テクニックの収集が適切に対処していない、多くの課題を提示します。
JailbreakBenchは、以下のコンポーネントを備えたオープンソースのベンチマークである。
論文 参考訳(メタデータ) (2024-03-28T02:44:02Z) - JailGuard: A Universal Detection Framework for LLM Prompt-based Attacks [34.95274579737075]
JailGuardは、テキストおよび画像モダリティ間のプロンプトベースの攻撃を普遍的に検出するフレームワークである。
攻撃は本来、良心的な攻撃よりも頑丈ではないという原則に基づいて行われる。
テキストと画像の入力で86.14%/82.90%の最高の検出精度を達成し、最先端の手法を11.81%-25.73%、12.20%-21.40%向上させた。
論文 参考訳(メタデータ) (2023-12-17T17:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。