論文の概要: AdaptiveGuard: Towards Adaptive Runtime Safety for LLM-Powered Software
- arxiv url: http://arxiv.org/abs/2509.16861v1
- Date: Sun, 21 Sep 2025 01:22:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.009075
- Title: AdaptiveGuard: Towards Adaptive Runtime Safety for LLM-Powered Software
- Title(参考訳): AdaptiveGuard: LLM搭載ソフトウェアのアダプティブランタイム安全性を目指して
- Authors: Rui Yang, Michael Fu, Chakkrit Tantithamthavorn, Chetan Arora, Gunel Gulmammadova, Joey Chua,
- Abstract要約: ガードレールは、LLM(Large Language Models)ベースのソフトウェアを安全にデプロイするために重要である。
本稿では,新しい脱獄攻撃をアウト・オブ・ディストリビューション(OOD)入力として検出する適応ガードレールであるAdaptiveGuardを提案する。
我々は、AdaptiveGuardがOOD検出精度96%を達成し、2回の更新ステップで新たな攻撃に適応し、85%以上のF1スコアを分散後のデータに保持していることを示す。
- 参考スコア(独自算出の注目度): 11.606665113249298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Guardrails are critical for the safe deployment of Large Language Models (LLMs)-powered software. Unlike traditional rule-based systems with limited, predefined input-output spaces that inherently constrain unsafe behavior, LLMs enable open-ended, intelligent interactions--opening the door to jailbreak attacks through user inputs. Guardrails serve as a protective layer, filtering unsafe prompts before they reach the LLM. However, prior research shows that jailbreak attacks can still succeed over 70% of the time, even against advanced models like GPT-4o. While guardrails such as LlamaGuard report up to 95% accuracy, our preliminary analysis shows their performance can drop sharply--to as low as 12%--when confronted with unseen attacks. This highlights a growing software engineering challenge: how to build a post-deployment guardrail that adapts dynamically to emerging threats? To address this, we propose AdaptiveGuard, an adaptive guardrail that detects novel jailbreak attacks as out-of-distribution (OOD) inputs and learns to defend against them through a continual learning framework. Through empirical evaluation, AdaptiveGuard achieves 96% OOD detection accuracy, adapts to new attacks in just two update steps, and retains over 85% F1-score on in-distribution data post-adaptation, outperforming other baselines. These results demonstrate that AdaptiveGuard is a guardrail capable of evolving in response to emerging jailbreak strategies post deployment. We release our AdaptiveGuard and studied datasets at https://github.com/awsm-research/AdaptiveGuard to support further research.
- Abstract(参考訳): ガードレールは、LLM(Large Language Models)ベースのソフトウェアを安全にデプロイするために重要である。
安全でない振る舞いを本質的に制限する、限定された事前定義された入力出力空間を持つ従来のルールベースのシステムとは異なり、LLMはオープンエンドでインテリジェントなインタラクションを可能にし、ユーザ入力を通じてジェイルブレイク攻撃の扉を開く。
ガードレールは保護層として機能し、LLMに到達する前に安全でないプロンプトをフィルタリングする。
しかし、以前の研究では、GPT-4oのような先進的なモデルに対してさえ、脱獄攻撃が70%以上も成功することが示されている。
LlamaGuardのようなガードレールは95%の精度で報告されているが、予備的な分析では、不審な攻撃に直面した場合、その性能は12%まで急激に低下する可能性がある。
デプロイ後ガードレールをどうやって構築すれば、新興の脅威に動的に適用できるのか?
そこで我々は,新しい脱獄攻撃をアウト・オブ・ディストリビューション(OOD)入力として検出し,継続的な学習フレームワークを通じてそれらに対する防御を学習する適応ガードレールであるAdaptiveGuardを提案する。
経験的評価を通じて、AdaptiveGuardはOOD検出精度96%を達成し、2回の更新ステップで新たな攻撃に適応し、分散後のデータに対するF1スコアを85%以上保持し、他のベースラインを上回っている。
これらの結果は、AdaptiveGuardがデプロイ後のjailbreak戦略に反応して進化できるガードレールであることを示している。
AdaptiveGuardをリリースし、https://github.com/awsm-research/AdaptiveGuardでデータセットを研究し、さらなる研究を支援しています。
関連論文リスト
- DecipherGuard: Understanding and Deciphering Jailbreak Prompts for a Safer Deployment of Intelligent Software Systems [11.606665113249298]
DecipherGuardは、難読化ベースのプロンプトに対抗するための解読レイヤと、脱獄攻撃に対するガードレールの有効性を高めるための低ランク適応メカニズムを統合する新しいフレームワークである。
22,000以上のプロンプトに対する実証的な評価は、DecipherGuardがDSRを36%から65%改善し、全体的なガードレール性能(OGP)がLlamaGuardや他の2つのランタイムガードレールと比較して20%から50%向上したことを示している。
論文 参考訳(メタデータ) (2025-09-21T01:46:35Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
本手法は,強力なガードレールモデルの検出下であっても,有害なコンテンツ生成のためにバックドアを様々なLSMに効果的に注入する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - MoJE: Mixture of Jailbreak Experts, Naive Tabular Classifiers as Guard for Prompt Attacks [2.873719680183099]
本稿では,大規模言語モデル(LLM)における脱獄予防の重要性を論じる。
我々は,既存の最先端ガードレールの限界を超えるよう設計された,新しいガードレールアーキテクチャであるMoJEを紹介する。
MoJEは、モデル推論中に最小限の計算オーバーヘッドを維持しながら、ジェイルブレイク攻撃の検出に優れる。
論文 参考訳(メタデータ) (2024-09-26T10:12:19Z) - PrimeGuard: Safe and Helpful LLMs through Tuning-Free Routing [1.474945380093949]
推論時ガードレール(ITG)は、モデルの出力分布をコンプライアンスにシフトするソリューションを提供する。
現在の手法は安全性と利便性のバランスをとるのに苦労している。
構造化制御フローを利用した新しいITG手法であるPrimeGuardを提案する。
論文 参考訳(メタデータ) (2024-07-23T09:14:27Z) - WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs [54.10865585773691]
LLM安全性のためのオープンで軽量なモデレーションツールであるWildGuardを紹介します。
WildGuardは、ユーザプロンプトにおける悪意のある意図の特定、モデルレスポンスの安全性リスクの検出、モデル拒絶率の決定という3つの目標を達成する。
論文 参考訳(メタデータ) (2024-06-26T16:58:20Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。