論文の概要: XBreaking: Explainable Artificial Intelligence for Jailbreaking LLMs
- arxiv url: http://arxiv.org/abs/2504.21700v1
- Date: Wed, 30 Apr 2025 14:44:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 18:11:16.617183
- Title: XBreaking: Explainable Artificial Intelligence for Jailbreaking LLMs
- Title(参考訳): XBreaking:LLMをジェイルブレイクするための説明可能な人工知能
- Authors: Marco Arazzi, Vignesh Kumar Kembu, Antonino Nocera, Vinod P,
- Abstract要約: 大規模言語モデルは、AIソリューションが支配する現代のIT業界における基本的なアクターである。
本稿では、検閲されたモデルと検閲されていないモデルの振る舞いを比較分析して、ユニークな利用可能なアライメントパターンを導出する説明可能なAIソリューションを提案する。
そこで我々は,これらのユニークなパターンを利用して,ターゲットノイズ注入によるLLMのセキュリティ制約を破る,新しいジェイルブレイク攻撃であるXBreakingを提案する。
- 参考スコア(独自算出の注目度): 1.6874375111244329
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models are fundamental actors in the modern IT landscape dominated by AI solutions. However, security threats associated with them might prevent their reliable adoption in critical application scenarios such as government organizations and medical institutions. For this reason, commercial LLMs typically undergo a sophisticated censoring mechanism to eliminate any harmful output they could possibly produce. In response to this, LLM Jailbreaking is a significant threat to such protections, and many previous approaches have already demonstrated its effectiveness across diverse domains. Existing jailbreak proposals mostly adopt a generate-and-test strategy to craft malicious input. To improve the comprehension of censoring mechanisms and design a targeted jailbreak attack, we propose an Explainable-AI solution that comparatively analyzes the behavior of censored and uncensored models to derive unique exploitable alignment patterns. Then, we propose XBreaking, a novel jailbreak attack that exploits these unique patterns to break the security constraints of LLMs by targeted noise injection. Our thorough experimental campaign returns important insights about the censoring mechanisms and demonstrates the effectiveness and performance of our attack.
- Abstract(参考訳): 大規模言語モデルは、AIソリューションが支配する現代のIT業界における基本的なアクターである。
しかし、それらに関連するセキュリティ上の脅威は、政府機関や医療機関などの重要な応用シナリオにおいて、彼らの信頼性の高い採用を妨げる可能性がある。
このため、商業用LLMは一般的に、生産可能な有害な出力を排除するための洗練された検閲機構を施している。
これに応えて、LLMの脱獄はこのような保護にとって重大な脅威であり、以前の多くのアプローチは、既に様々な領域でその効果を実証している。
既存のjailbreak提案では、主に悪意のある入力を作るための生成とテストの戦略を採用しています。
検閲機構の理解を深め,ターゲットとなるジェイルブレイク攻撃を設計するために,検閲されたモデルと検閲されていないモデルの振る舞いを相対的に解析し,ユニークな利用可能なアライメントパターンを導出する説明可能なAIソリューションを提案する。
そこで我々は,これらのユニークなパターンを利用して,ターゲットノイズ注入によるLLMのセキュリティ制約を破る,新しいジェイルブレイク攻撃であるXBreakingを提案する。
我々の徹底的な実験的キャンペーンは、検閲メカニズムに関する重要な洞察を返却し、攻撃の有効性と性能を実証する。
関連論文リスト
- Sugar-Coated Poison: Benign Generation Unlocks LLM Jailbreaking [13.939357884952154]
我々は,大規模言語モデル(LLM)の脆弱性を明らかにし,その脆弱性をDefense Threshold Decay (DTD)と呼ぶ。
モデルがかなりの良性コンテンツを生成すると、その注意重みは入力から事前出力へと変化し、ジェイルブレイク攻撃の影響を受けやすくなります。
このような攻撃を緩和するため,単純な防御戦略であるPOSDを導入し,脱獄の成功率を大幅に低減する。
論文 参考訳(メタデータ) (2025-04-08T03:57:09Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z) - Distract Large Language Models for Automatic Jailbreak Attack [8.364590541640482]
大規模言語モデルの自動レッドチーム化のための新しいブラックボックスジェイルブレイクフレームワークを提案する。
我々は、Jailbreak LLMに対する反復最適化アルゴリズムを用いて、悪意のあるコンテンツの隠蔽とメモリリフレーミングを設計した。
論文 参考訳(メタデータ) (2024-03-13T11:16:43Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Revisiting Jailbreaking for Large Language Models: A Representation Engineering Perspective [43.94115802328438]
最近のジェイルブレイク攻撃の急増により、悪意のある入力に晒された場合、Large Language Models(LLM)の重大な脆弱性が明らかになった。
LLMの自己保護能力は,その表現空間内の特定の行動パターンと関係があることが示唆された。
これらのパターンは,数対のコントラストクエリで検出可能であることを示す。
論文 参考訳(メタデータ) (2024-01-12T00:50:04Z) - Analyzing the Inherent Response Tendency of LLMs: Real-World
Instructions-Driven Jailbreak [26.741029482196534]
大規模言語モデル(LLM)が悪意ある指示に直面すると有害な応答を発生させる現象である。
本稿では,LDMのポテンシャルを増幅することでセキュリティ機構をバイパスし,肯定応答を生成する新しい自動ジェイルブレイク手法RADIALを提案する。
提案手法は,5つのオープンソースのLLMを用いて,英語の悪意のある命令に対する攻撃性能を良好に向上すると同時に,中国語の悪意のある命令に対するクロス言語攻撃の実行において,堅牢な攻撃性能を維持する。
論文 参考訳(メタデータ) (2023-12-07T08:29:58Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。