論文の概要: Black-Box Guardrail Reverse-engineering Attack
- arxiv url: http://arxiv.org/abs/2511.04215v1
- Date: Thu, 06 Nov 2025 09:24:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.376256
- Title: Black-Box Guardrail Reverse-engineering Attack
- Title(参考訳): ブラックボックスガードレールリバースエンジニアリング攻撃
- Authors: Hongwei Yao, Yun Xia, Shuo Shao, Haoran Shi, Tong Qiao, Cong Wang,
- Abstract要約: ブラックボックスLLMガードレールのリバースエンジニアリング攻撃に関する最初の研究を行った。
強化学習に基づくフレームワークであるガードレールリバースエンジニアリングアタック(GRA)を提案する。
GRAは、APIコストが85ドル未満で、規則マッチングレートが0.92を超えている。
- 参考スコア(独自算出の注目度): 12.937652779951156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) increasingly employ guardrails to enforce ethical, legal, and application-specific constraints on their outputs. While effective at mitigating harmful responses, these guardrails introduce a new class of vulnerabilities by exposing observable decision patterns. In this work, we present the first study of black-box LLM guardrail reverse-engineering attacks. We propose Guardrail Reverse-engineering Attack (GRA), a reinforcement learning-based framework that leverages genetic algorithm-driven data augmentation to approximate the decision-making policy of victim guardrails. By iteratively collecting input-output pairs, prioritizing divergence cases, and applying targeted mutations and crossovers, our method incrementally converges toward a high-fidelity surrogate of the victim guardrail. We evaluate GRA on three widely deployed commercial systems, namely ChatGPT, DeepSeek, and Qwen3, and demonstrate that it achieves an rule matching rate exceeding 0.92 while requiring less than $85 in API costs. These findings underscore the practical feasibility of guardrail extraction and highlight significant security risks for current LLM safety mechanisms. Our findings expose critical vulnerabilities in current guardrail designs and highlight the urgent need for more robust defense mechanisms in LLM deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、倫理的、法的、アプリケーション固有の制約を出力に課すためにガードレールをますます採用している。
有害な応答を緩和する効果はあるが、これらのガードレールは観測可能な決定パターンを公開することによって、新たなタイプの脆弱性を導入する。
本研究では,ブラックボックスLDMガードレールのリバースエンジニアリング攻撃に関する最初の研究について述べる。
本稿では、遺伝的アルゴリズムによるデータ拡張を利用した強化学習に基づくフレームワークであるガードレールリバースエンジニアリングアタック(GRA)を提案し、被害者ガードレールの意思決定方針を近似する。
入出力ペアの反復収集,発散事例の優先順位付け,標的突然変異とクロスオーバーの適用により,本手法は被害者ガードレールの高忠実度サロゲートに向けて漸進的に収束する。
我々は、広くデプロイされている3つの商用システム、すなわちChatGPT、DeepSeek、Qwen3上でGRAを評価し、APIコストが85ドル未満で、規則マッチング率が0.92を超えることを実証した。
これらの知見は、ガードレール抽出の実用可能性を強調し、現在のLLM安全機構の重大なセキュリティリスクを強調している。
本研究は,現在のガードレール設計における重大な脆弱性を明らかにするとともに,LLM配置におけるより堅牢な防御機構の必要性を明らかにするものである。
関連論文リスト
- Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - SoK: Evaluating Jailbreak Guardrails for Large Language Models [17.18648700981267]
大規模言語モデル(LLM)のためのジェイルブレイクガードレールの総合解析について紹介する。
6つの主要な次元に沿ってガードレールを分類する新しい多次元分類法を提案する。
広範囲な分析と実験により,既存のガードレールアプローチの強度と限界を明らかにした。
論文 参考訳(メタデータ) (2025-06-12T11:42:40Z) - Saffron-1: Safety Inference Scaling [69.61130284742353]
SAFFRONは、安全保証のために明示的に調整された、新しい推論スケーリングパラダイムである。
我々のアプローチの中心は、要求される報酬モデルの評価を著しく削減する乗算報酬モデル(MRM)の導入である。
トレーニング済みの多機能報酬モデル(Saffron-1)とそれに伴うトークンレベルの安全報酬データセット(Safety4M)を公開します。
論文 参考訳(メタデータ) (2025-06-06T18:05:45Z) - Exploring the Vulnerability of the Content Moderation Guardrail in Large Language Models via Intent Manipulation [29.8288014123234]
本研究では,意図認識型ガードレールの脆弱性を調査し,大規模言語モデルが暗黙の意図検出能力を示すことを示す。
IntentPromptという2段階のインテントベースのプロンプトリファインメントフレームワークを提案し、まず有害な問い合わせを構造化されたアウトラインに変換し、さらに宣言的なスタイルの物語に再構成する。
われわれのフレームワークは、最先端のジェイルブレイク手法を一貫して上回り、さらに高度なIntent Analysis(IA)とChain-of-Thought(CoT)ベースの防御を回避している。
論文 参考訳(メタデータ) (2025-05-24T06:47:32Z) - Hoist with His Own Petard: Inducing Guardrails to Facilitate Denial-of-Service Attacks on Retrieval-Augmented Generation of LLMs [8.09404178079053]
Retrieval-Augmented Generation (RAG)は、Large Language Models (LLM)を外部の知識ベースと統合し、新たなセキュリティリスクを導入しながら出力品質を改善する。
RAGの脆弱性に関する既存の研究は、典型的には不正な知識や悪意のあるテキストを注入する検索メカニズムの活用に重点を置いており、誤った出力を誘導している。
本稿では, LLM の安全ガードレールの脆弱性を明らかにする。LLM の安全ガードレールは保護のために設計されているが, 敵による攻撃ベクトルとして利用することもできる。この脆弱性に基づいて, 本脆弱性を生かして, ガードレールの可利用性を損なうために, リバース・オブ・サービス・アタックである MutedRAG を提案する。
論文 参考訳(メタデータ) (2025-04-30T14:18:11Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [81.98466438000086]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。