論文の概要: Breaking the Ceiling: Exploring the Potential of Jailbreak Attacks through Expanding Strategy Space
- arxiv url: http://arxiv.org/abs/2505.21277v1
- Date: Tue, 27 May 2025 14:48:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.727481
- Title: Breaking the Ceiling: Exploring the Potential of Jailbreak Attacks through Expanding Strategy Space
- Title(参考訳): シーリングを破る - 戦略空間を拡大してジェイルブレイク攻撃の可能性を探る
- Authors: Yao Huang, Yitong Sun, Shouwei Ruan, Yichi Zhang, Yinpeng Dong, Xingxing Wei,
- Abstract要約: 大きな言語モデル(LLM)は、安全プロトコルをバイパスするジェイルブレイク攻撃など、多くの安全リスクに悩まされている。
我々は,脱獄戦略を,ELM理論に基づく重要な構成要素に分解する新しい枠組みを開発する。
従来の手法が完全に失敗するClaude-3.5で90%以上の成功率を達成した。
- 参考スコア(独自算出の注目度): 32.144633825924345
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs), despite advanced general capabilities, still suffer from numerous safety risks, especially jailbreak attacks that bypass safety protocols. Understanding these vulnerabilities through black-box jailbreak attacks, which better reflect real-world scenarios, offers critical insights into model robustness. While existing methods have shown improvements through various prompt engineering techniques, their success remains limited against safety-aligned models, overlooking a more fundamental problem: the effectiveness is inherently bounded by the predefined strategy spaces. However, expanding this space presents significant challenges in both systematically capturing essential attack patterns and efficiently navigating the increased complexity. To better explore the potential of expanding the strategy space, we address these challenges through a novel framework that decomposes jailbreak strategies into essential components based on the Elaboration Likelihood Model (ELM) theory and develops genetic-based optimization with intention evaluation mechanisms. To be striking, our experiments reveal unprecedented jailbreak capabilities by expanding the strategy space: we achieve over 90% success rate on Claude-3.5 where prior methods completely fail, while demonstrating strong cross-model transferability and surpassing specialized safeguard models in evaluation accuracy. The code is open-sourced at: https://github.com/Aries-iai/CL-GSO.
- Abstract(参考訳): 大きな言語モデル(LLM)は、高度な汎用機能にもかかわらず、安全プロトコルをバイパスするジェイルブレイク攻撃など、多くの安全リスクに悩まされている。
実際のシナリオをよりよく反映したブラックボックスのjailbreak攻撃を通じてこれらの脆弱性を理解することで、モデルの堅牢性に対する重要な洞察を提供する。
既存の手法は、様々な迅速なエンジニアリング技術を通じて改善されているが、その成功は、より根本的な問題を見越して、安全に整合したモデルに対して制限されている。
しかし、この領域を拡大することは、本質的な攻撃パターンを体系的に捉えることと、複雑さの増大を効率的にナビゲートすることの両方において大きな課題となる。
戦略空間を拡大する可能性をよりよく探求するため,これらの課題を,ELM(Elaboration Likelihood Model)理論に基づいてジェイルブレイク戦略を必須成分に分解する新たなフレームワークを通じて解決し,意図的評価機構による遺伝的最適化を開発する。
従来の手法が完全に失敗するClaude-3.5では90%以上の成功率を達成でき、一方で強力なクロスモデル転送可能性を示し、評価精度において特別なセーフガードモデルを上回っている。
コードは、https://github.com/Aries-iai/CL-GSOで公開されている。
関連論文リスト
- Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Evolving Security in LLMs: A Study of Jailbreak Attacks and Defenses [0.5261718469769449]
大規模言語モデル(LLM)はますます人気を博し、幅広いアプリケーションに電力を供給している。
特に、有害なコンテンツを生み出すための安全対策を回避したジェイルブレイク攻撃によって、それらの普及が懸念を呼び起こした。
本稿では,大規模言語モデル(LLM)の包括的セキュリティ解析を行い,モデル安全性の進化と決定要因に関する重要な研究課題に対処する。
論文 参考訳(メタデータ) (2025-04-02T19:33:07Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - LLMs can be Dangerous Reasoners: Analyzing-based Jailbreak Attack on Large Language Models [20.154877919740322]
既存のjailbreakメソッドには、複雑なプロンプトエンジニアリングと反復最適化の2つの大きな制限がある。
本稿では,LLMの高度な推論能力を活用し,有害コンテンツを自律的に生成する効率的なジェイルブレイク攻撃手法であるAnalyzing-based Jailbreak(ABJ)を提案する。
論文 参考訳(メタデータ) (2024-07-23T06:14:41Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - A Comprehensive Study of Jailbreak Attack versus Defense for Large Language Models [20.40158210837289]
Vicuna, LLama, GPT-3.5 Turboの3つの異なる言語モデルに適用した9つの攻撃手法と7つの防御手法について検討した。
以上の結果から,既存のホワイトボックス攻撃は普遍的手法に比べて性能が低く,入力に特別なトークンを含むと,攻撃成功の可能性に大きな影響を及ぼすことが明らかとなった。
論文 参考訳(メタデータ) (2024-02-21T01:26:39Z) - Jailbroken: How Does LLM Safety Training Fail? [92.8748773632051]
ChatGPTの初期リリースに対する"jailbreak"攻撃は、望ましくない振る舞いを引き起こす。
このような攻撃がなぜ成功し、どのように発生できるかを考察する。
障害モードを利用した新たな攻撃は、安全でない要求の収集において、すべてのプロンプトで成功します。
論文 参考訳(メタデータ) (2023-07-05T17:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。