論文の概要: Retrieval-Augmented Defense: Adaptive and Controllable Jailbreak Prevention for Large Language Models
- arxiv url: http://arxiv.org/abs/2508.16406v1
- Date: Fri, 22 Aug 2025 14:13:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.406911
- Title: Retrieval-Augmented Defense: Adaptive and Controllable Jailbreak Prevention for Large Language Models
- Title(参考訳): Retrieval-Augmented Defense:大規模言語モデルに対する適応的かつ制御可能なジェイルブレイク防止
- Authors: Guangyu Yang, Jinghong Chen, Jingbiao Mei, Weizhe Lin, Bill Byrne,
- Abstract要約: 本稿では,ジェイルブレイク検出のための新しいフレームワークであるRetrieval-Augmented Defense (RAD)を提案する。
RADは既知の攻撃例のデータベースをRetrieval-Augmented Generationに組み込んでいる。
StrongREJECTの実験では、RADは強いジェイルブレイク攻撃の有効性を大幅に低下させることが示された。
- 参考スコア(独自算出の注目度): 27.23138831535272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) remain vulnerable to jailbreak attacks, which attempt to elicit harmful responses from LLMs. The evolving nature and diversity of these attacks pose many challenges for defense systems, including (1) adaptation to counter emerging attack strategies without costly retraining, and (2) control of the trade-off between safety and utility. To address these challenges, we propose Retrieval-Augmented Defense (RAD), a novel framework for jailbreak detection that incorporates a database of known attack examples into Retrieval-Augmented Generation, which is used to infer the underlying, malicious user query and jailbreak strategy used to attack the system. RAD enables training-free updates for newly discovered jailbreak strategies and provides a mechanism to balance safety and utility. Experiments on StrongREJECT show that RAD substantially reduces the effectiveness of strong jailbreak attacks such as PAP and PAIR while maintaining low rejection rates for benign queries. We propose a novel evaluation scheme and show that RAD achieves a robust safety-utility trade-off across a range of operating points in a controllable manner.
- Abstract(参考訳): 大規模言語モデル(LLM)は、LLMから有害な応答を引き出そうとするジェイルブレイク攻撃に弱いままである。
これらの攻撃の性質と多様性は、(1)コストのかかる再訓練を伴わない新興攻撃戦略への適応、(2)安全とユーティリティのトレードオフの制御など、防衛システムに多くの課題をもたらす。
これらの課題に対処するために,既知の攻撃事例のデータベースを組み込んだ新しいジェイルブレイク検出フレームワークであるRetrieval-Augmented Defense (RAD)を提案する。
RADは新たに発見されたjailbreak戦略のトレーニング不要のアップデートを可能にし、安全性とユーティリティのバランスをとるメカニズムを提供する。
StrongREJECTの実験では、RADは、良質なクエリに対する拒否率を低く保ちながら、PAPやPAIRのような強いジェイルブレイク攻撃の有効性を著しく低下させることが示された。
そこで本稿では,RAD が制御可能な操作点をまたいだ堅牢な安全性・実用トレードオフを実現するための新しい評価手法を提案する。
関連論文リスト
- Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval [25.17143802138141]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱であり、敵は危険または非倫理的な反応を引き起こすために慎重に設計されたプロンプトを悪用する。
安全コンテキスト検索(SCR, Safety Context Retrieval)は,LLMの脱獄防止のためのスケーラブルで堅牢な安全保護パラダイムである。
論文 参考訳(メタデータ) (2025-05-21T16:58:14Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment [97.38766396447369]
訓練時安全アライメントにもかかわらず、Multimodal Large Language Models (MLLM) はジェイルブレイク攻撃に対して脆弱である。
我々は,ジェイルブレイク攻撃に対する防御のために,制御復号化による安全な報酬モデルを活用する推論時防御フレームワークImmuneを提案する。
論文 参考訳(メタデータ) (2024-11-27T19:00:10Z) - MoJE: Mixture of Jailbreak Experts, Naive Tabular Classifiers as Guard for Prompt Attacks [2.873719680183099]
本稿では,大規模言語モデル(LLM)における脱獄予防の重要性を論じる。
我々は,既存の最先端ガードレールの限界を超えるよう設計された,新しいガードレールアーキテクチャであるMoJEを紹介する。
MoJEは、モデル推論中に最小限の計算オーバーヘッドを維持しながら、ジェイルブレイク攻撃の検出に優れる。
論文 参考訳(メタデータ) (2024-09-26T10:12:19Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。