論文の概要: When Safety Detectors Aren't Enough: A Stealthy and Effective Jailbreak Attack on LLMs via Steganographic Techniques
- arxiv url: http://arxiv.org/abs/2505.16765v1
- Date: Thu, 22 May 2025 15:07:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.382769
- Title: When Safety Detectors Aren't Enough: A Stealthy and Effective Jailbreak Attack on LLMs via Steganographic Techniques
- Title(参考訳): 安全検知器が十分でないとき:ステガノグラフィー技術によるLSMのステルスで効果的なジェイルブレイク攻撃
- Authors: Jianing Geng, Biao Yi, Zekun Fei, Tongxi Wu, Lihai Nie, Zheli Liu,
- Abstract要約: 大規模言語モデル(LLM)に脱獄攻撃が深刻な脅威
本稿では,新しいステルスの観点からのジェイルブレイク手法の体系的調査について述べる。
我々はステガノグラフィーを用いて、良質でセマンティックに一貫性のあるテキスト内に有害なクエリを隠蔽するステゴアタック(StegoAttack)を提案する。
- 参考スコア(独自算出の注目度): 5.2431999629987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Jailbreak attacks pose a serious threat to large language models (LLMs) by bypassing built-in safety mechanisms and leading to harmful outputs. Studying these attacks is crucial for identifying vulnerabilities and improving model security. This paper presents a systematic survey of jailbreak methods from the novel perspective of stealth. We find that existing attacks struggle to simultaneously achieve toxic stealth (concealing toxic content) and linguistic stealth (maintaining linguistic naturalness). Motivated by this, we propose StegoAttack, a fully stealthy jailbreak attack that uses steganography to hide the harmful query within benign, semantically coherent text. The attack then prompts the LLM to extract the hidden query and respond in an encrypted manner. This approach effectively hides malicious intent while preserving naturalness, allowing it to evade both built-in and external safety mechanisms. We evaluate StegoAttack on four safety-aligned LLMs from major providers, benchmarking against eight state-of-the-art methods. StegoAttack achieves an average attack success rate (ASR) of 92.00%, outperforming the strongest baseline by 11.0%. Its ASR drops by less than 1% even under external detection (e.g., Llama Guard). Moreover, it attains the optimal comprehensive scores on stealth detection metrics, demonstrating both high efficacy and exceptional stealth capabilities. The code is available at https://anonymous.4open.science/r/StegoAttack-Jail66
- Abstract(参考訳): ジェイルブレイク攻撃は、組み込まれた安全メカニズムをバイパスし、有害な出力をもたらすことで、大きな言語モデル(LLM)に深刻な脅威をもたらす。
これらの攻撃を研究することは、脆弱性を特定し、モデルのセキュリティを改善するために重要である。
本稿では,新しいステルスの観点からのジェイルブレイク手法の体系的調査について述べる。
既存の攻撃は、有害な盗難(有害な内容を含む)と言語的な盗難(言語的自然性を維持する)を同時に達成するために苦労している。
これはステガノグラフィーを用いて、良質でセマンティックな一貫性のあるテキストの中に有害なクエリを隠蔽する、完全にステルスのジェイルブレイク攻撃である。
その後、攻撃はLLMに隠れたクエリを抽出し、暗号化された方法で応答するように促す。
このアプローチは、自然性を維持しながら悪意のある意図を効果的に隠蔽し、ビルトインと外部の安全メカニズムの両方を避けることができる。
我々は,StegoAttackを大手プロバイダから4つの安全対応LCM上で評価し,8つの最先端手法に対してベンチマークを行った。
ステゴアタックは92.00%の平均攻撃成功率(ASR)を達成し、最強のベースラインを11.0%上回っている。
ASRは外部検出下でも1%以下に低下する(Llama Guardなど)。
さらに、ステルス検出指標の最適総合スコアを達成し、高い有効性と例外的なステルス能力の両方を実証する。
コードはhttps://anonymous.4open.science/r/StegoAttack-Jail66で公開されている。
関連論文リスト
- Why Not Act on What You Know? Unleashing Safety Potential of LLMs via Self-Aware Guard Enhancement [48.50995874445193]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的な機能を示しているが、細心の注意を払って構築されたジェイルブレイク攻撃には弱いままである。
SAGE(Self-Aware Guard Enhancement)は,LSMの強い安全識別性能と比較的弱い安全生成能力とを整合させる訓練不要防衛戦略である。
論文 参考訳(メタデータ) (2025-05-17T15:54:52Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [55.253208152184065]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - The Dark Side of Function Calling: Pathways to Jailbreaking Large Language Models [8.423787598133972]
本稿では,大規模言語モデル(LLM)の関数呼び出しプロセスにおける重大な脆弱性を明らかにする。
本稿では,アライメントの相違,ユーザ強制,厳密な安全フィルタの欠如を生かした,新しい"jailbreak function"攻撃手法を提案する。
本研究は,LLMの機能呼び出し機能において,緊急のセキュリティ対策の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-07-25T10:09:21Z) - LLMs can be Dangerous Reasoners: Analyzing-based Jailbreak Attack on Large Language Models [20.154877919740322]
既存のjailbreakメソッドには、複雑なプロンプトエンジニアリングと反復最適化の2つの大きな制限がある。
本稿では,LLMの高度な推論能力を活用し,有害コンテンツを自律的に生成する効率的なジェイルブレイク攻撃手法であるAnalyzing-based Jailbreak(ABJ)を提案する。
論文 参考訳(メタデータ) (2024-07-23T06:14:41Z) - JailGuard: A Universal Detection Framework for LLM Prompt-based Attacks [34.95274579737075]
JailGuardは、テキストおよび画像モダリティ間のプロンプトベースの攻撃を普遍的に検出するフレームワークである。
攻撃は本来、良心的な攻撃よりも頑丈ではないという原則に基づいて行われる。
テキストと画像の入力で86.14%/82.90%の最高の検出精度を達成し、最先端の手法を11.81%-25.73%、12.20%-21.40%向上させた。
論文 参考訳(メタデータ) (2023-12-17T17:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。