論文の概要: DecipherGuard: Understanding and Deciphering Jailbreak Prompts for a Safer Deployment of Intelligent Software Systems
- arxiv url: http://arxiv.org/abs/2509.16870v1
- Date: Sun, 21 Sep 2025 01:46:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:54:38.954539
- Title: DecipherGuard: Understanding and Deciphering Jailbreak Prompts for a Safer Deployment of Intelligent Software Systems
- Title(参考訳): DecipherGuard: インテリジェントなソフトウェアシステムの安全なデプロイのためのジェイルブレイクプロンプトの理解と解読
- Authors: Rui Yang, Michael Fu, Chakkrit Tantithamthavorn, Chetan Arora, Gunel Gulmammadova, Joey Chua,
- Abstract要約: DecipherGuardは、難読化ベースのプロンプトに対抗するための解読レイヤと、脱獄攻撃に対するガードレールの有効性を高めるための低ランク適応メカニズムを統合する新しいフレームワークである。
22,000以上のプロンプトに対する実証的な評価は、DecipherGuardがDSRを36%から65%改善し、全体的なガードレール性能(OGP)がLlamaGuardや他の2つのランタイムガードレールと比較して20%から50%向上したことを示している。
- 参考スコア(独自算出の注目度): 11.606665113249298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intelligent software systems powered by Large Language Models (LLMs) are increasingly deployed in critical sectors, raising concerns about their safety during runtime. Through an industry-academic collaboration when deploying an LLM-powered virtual customer assistant, a critical software engineering challenge emerged: how to enhance a safer deployment of LLM-powered software systems at runtime? While LlamaGuard, the current state-of-the-art runtime guardrail, offers protection against unsafe inputs, our study reveals a Defense Success Rate (DSR) drop of 24% under obfuscation- and template-based jailbreak attacks. In this paper, we propose DecipherGuard, a novel framework that integrates a deciphering layer to counter obfuscation-based prompts and a low-rank adaptation mechanism to enhance guardrail effectiveness against template-based attacks. Empirical evaluation on over 22,000 prompts demonstrates that DecipherGuard improves DSR by 36% to 65% and Overall Guardrail Performance (OGP) by 20% to 50% compared to LlamaGuard and two other runtime guardrails. These results highlight the effectiveness of DecipherGuard in defending LLM-powered software systems against jailbreak attacks during runtime.
- Abstract(参考訳): LLM(Large Language Models)をベースとするインテリジェントなソフトウェアシステムは、ますます重要な分野に展開され、実行時の安全性に対する懸念が高まっている。
LLMを搭載した仮想顧客アシスタントをデプロイする際、業界と学際的なコラボレーションを通じて、重要なソフトウェアエンジニアリングの課題が浮かび上がった。
現在最先端のランタイムガードレールであるLlamaGuardは、安全でない入力に対して保護を提供するが、我々の研究は、難読化およびテンプレートベースのジェイルブレイク攻撃により、防衛成功率(DSR)が24%低下していることを明らかにした。
本稿では,難読化によるプロンプトに対抗するために復号層を統合する新しいフレームワークであるDecipherGuardと,テンプレートベースの攻撃に対するガードレールの有効性を高めるための低ランク適応機構を提案する。
22,000以上のプロンプトに対する実証的な評価は、DecipherGuardがDSRを36%から65%改善し、全体的なガードレール性能(OGP)がLlamaGuardや他の2つのランタイムガードレールと比較して20%から50%向上したことを示している。
これらの結果は、実行中のJailbreak攻撃に対してLLMベースのソフトウェアシステムを保護する上で、DecipherGuardの有効性を強調している。
関連論文リスト
- Bypassing Prompt Guards in Production with Controlled-Release Prompting [11.65770031195044]
我々は、彼らの制限を強調して、プロンプトガードを回避できる新しい攻撃を導入する。
我々の手法は、応答品質を維持しながら生産モデルを継続的にジェイルブレイクする。
これは、現代のLLMアーキテクチャにおいて、軽量プロンプトガードに固有の攻撃面を明らかにしている。
論文 参考訳(メタデータ) (2025-10-02T00:04:21Z) - AdaptiveGuard: Towards Adaptive Runtime Safety for LLM-Powered Software [11.606665113249298]
ガードレールは、LLM(Large Language Models)ベースのソフトウェアを安全にデプロイするために重要である。
本稿では,新しい脱獄攻撃をアウト・オブ・ディストリビューション(OOD)入力として検出する適応ガードレールであるAdaptiveGuardを提案する。
我々は、AdaptiveGuardがOOD検出精度96%を達成し、2回の更新ステップで新たな攻撃に適応し、85%以上のF1スコアを分散後のデータに保持していることを示す。
論文 参考訳(メタデータ) (2025-09-21T01:22:42Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - SEALGuard: Safeguarding the Multilingual Conversations in Southeast Asian Languages for LLM Software Systems [9.469589800082597]
本稿では,多言語間の安全性向上を目的とした多言語ガードレールであるSEALGuardを紹介する。
既存のガードレールの多言語的安全アライメントギャップに対処し、安全でないプロンプトと脱獄プロンプトを効果的にフィルタリングすることを目的としている。
10言語で260,000以上のプロンプトを含む大規模多言語安全アライメントデータセットであるSEALSBenchを構築した。
論文 参考訳(メタデータ) (2025-07-11T05:15:35Z) - LLMs Caught in the Crossfire: Malware Requests and Jailbreak Challenges [70.85114705489222]
悪意のあるコード生成のための3,520のジェイルブレイクプロンプトを含むベンチマークデータセットであるMalwareBenchを提案する。
M MalwareBenchは、11のJailbreakメソッドと29のコード機能カテゴリをカバーする、320の手作業による悪意のあるコード生成要件に基づいている。
実験の結果、LLMは悪意のあるコード生成要求を拒否する限られた能力を示し、複数のjailbreakメソッドを組み合わせることで、モデルのセキュリティ機能をさらに低下させることが示された。
論文 参考訳(メタデータ) (2025-06-09T12:02:39Z) - Why Not Act on What You Know? Unleashing Safety Potential of LLMs via Self-Aware Guard Enhancement [48.50995874445193]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的な機能を示しているが、細心の注意を払って構築されたジェイルブレイク攻撃には弱いままである。
SAGE(Self-Aware Guard Enhancement)は,LSMの強い安全識別性能と比較的弱い安全生成能力とを整合させる訓練不要防衛戦略である。
論文 参考訳(メタデータ) (2025-05-17T15:54:52Z) - Bypassing LLM Guardrails: An Empirical Analysis of Evasion Attacks against Prompt Injection and Jailbreak Detection Systems [4.225223514207515]
大規模言語モデル(LLM)ガードレールシステムは、迅速な注入や脱獄攻撃を防ぐために設計されている。
本稿では, 点検と脱獄検出の2つの方法を示す。
両手法が対向ユーティリティを維持しながら検出を回避できることを示す。
論文 参考訳(メタデータ) (2025-04-15T13:16:02Z) - CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment [66.72332011814183]
CoreGuardは、エッジデバイスにデプロイされるプロプライエタリな大規模言語モデル(LLM)の計算と通信効率の保護方法である。
CoreGuardは効率的な保護プロトコルを使用して、計算オーバーヘッドを削減し、伝搬プロトコルによる通信オーバーヘッドを最小限にする。
論文 参考訳(メタデータ) (2024-10-16T08:14:24Z) - MoJE: Mixture of Jailbreak Experts, Naive Tabular Classifiers as Guard for Prompt Attacks [2.873719680183099]
本稿では,大規模言語モデル(LLM)における脱獄予防の重要性を論じる。
我々は,既存の最先端ガードレールの限界を超えるよう設計された,新しいガードレールアーキテクチャであるMoJEを紹介する。
MoJEは、モデル推論中に最小限の計算オーバーヘッドを維持しながら、ジェイルブレイク攻撃の検出に優れる。
論文 参考訳(メタデータ) (2024-09-26T10:12:19Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。