論文の概要: Bypassing Prompt Guards in Production with Controlled-Release Prompting
- arxiv url: http://arxiv.org/abs/2510.01529v1
- Date: Thu, 02 Oct 2025 00:04:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.908976
- Title: Bypassing Prompt Guards in Production with Controlled-Release Prompting
- Title(参考訳): プロンプトプロンプティングによるプロンプトガードの回避
- Authors: Jaiden Fairoze, Sanjam Garg, Keewoo Lee, Mingyuan Wang,
- Abstract要約: 我々は、彼らの制限を強調して、プロンプトガードを回避できる新しい攻撃を導入する。
我々の手法は、応答品質を維持しながら生産モデルを継続的にジェイルブレイクする。
これは、現代のLLMアーキテクチャにおいて、軽量プロンプトガードに固有の攻撃面を明らかにしている。
- 参考スコア(独自算出の注目度): 11.65770031195044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) advance, ensuring AI safety and alignment is paramount. One popular approach is prompt guards, lightweight mechanisms designed to filter malicious queries while being easy to implement and update. In this work, we introduce a new attack that circumvents such prompt guards, highlighting their limitations. Our method consistently jailbreaks production models while maintaining response quality, even under the highly protected chat interfaces of Google Gemini (2.5 Flash/Pro), DeepSeek Chat (DeepThink), Grok (3), and Mistral Le Chat (Magistral). The attack exploits a resource asymmetry between the prompt guard and the main LLM, encoding a jailbreak prompt that lightweight guards cannot decode but the main model can. This reveals an attack surface inherent to lightweight prompt guards in modern LLM architectures and underscores the need to shift defenses from blocking malicious inputs to preventing malicious outputs. We additionally identify other critical alignment issues, such as copyrighted data extraction, training data extraction, and malicious response leakage during thinking.
- Abstract(参考訳): 大規模言語モデル(LLM)が進むにつれ、AIの安全性とアライメントの確保が最重要である。
人気のあるアプローチはプロンプトガードで、悪意のあるクエリをフィルタリングする軽量なメカニズムで、実装と更新が容易である。
本研究では,このような突発的な警備を回避し,その限界を強調する新たな攻撃を導入する。
我々は,Google Gemini (2.5 Flash/Pro), DeepSeek Chat (DeepThink), Grok (3), Mistral Le Chat (Magistral) の高度に保護されたチャットインターフェースの下でも,応答品質を維持しながら生産モデルを継続的にジェイルブレイクする。
この攻撃はプロンプトガードとメインLLMの間のリソース非対称性を利用しており、ジェイルブレイクプロンプトを符号化することで、ライトウェイトガードは復号できないが、メインモデルは復号できる。
このことは、現代のLLMアーキテクチャの軽量プロンプトガードに固有の攻撃面を明らかにし、悪意のある入力をブロックして悪意のある出力を防ぐために防御をシフトする必要性を強調している。
また、著作権付きデータ抽出、トレーニングデータ抽出、思考中の悪意ある応答リークなど、他の重要なアライメント問題も特定する。
関連論文リスト
- MoJE: Mixture of Jailbreak Experts, Naive Tabular Classifiers as Guard for Prompt Attacks [2.873719680183099]
本稿では,大規模言語モデル(LLM)における脱獄予防の重要性を論じる。
我々は,既存の最先端ガードレールの限界を超えるよう設計された,新しいガードレールアーキテクチャであるMoJEを紹介する。
MoJEは、モデル推論中に最小限の計算オーバーヘッドを維持しながら、ジェイルブレイク攻撃の検出に優れる。
論文 参考訳(メタデータ) (2024-09-26T10:12:19Z) - HSF: Defending against Jailbreak Attacks with Hidden State Filtering [14.031010511732008]
隠れ状態フィルタ(HSF)に基づくジェイルブレイク攻撃防御戦略を提案する。
HSFは、推論プロセスが始まる前に、モデルが相手の入力をプリエンプティブに識別し、拒否することを可能にする。
不正なユーザクエリに対する応答を最小限に抑えながら、Jailbreak攻撃の成功率を大幅に低下させる。
論文 参考訳(メタデータ) (2024-08-31T06:50:07Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。