論文の概要: Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval
- arxiv url: http://arxiv.org/abs/2505.15753v1
- Date: Wed, 21 May 2025 16:58:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.791193
- Title: Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval
- Title(参考訳): 安全条件検索による地中脱獄攻撃に対するスケーラブルな防御
- Authors: Taiye Chen, Zeming Wei, Ang Li, Yisen Wang,
- Abstract要約: 大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱であり、敵は危険または非倫理的な反応を引き起こすために慎重に設計されたプロンプトを悪用する。
安全コンテキスト検索(SCR, Safety Context Retrieval)は,LLMの脱獄防止のためのスケーラブルで堅牢な安全保護パラダイムである。
- 参考スコア(独自算出の注目度): 25.17143802138141
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are known to be vulnerable to jailbreaking attacks, wherein adversaries exploit carefully engineered prompts to induce harmful or unethical responses. Such threats have raised critical concerns about the safety and reliability of LLMs in real-world deployment. While existing defense mechanisms partially mitigate such risks, subsequent advancements in adversarial techniques have enabled novel jailbreaking methods to circumvent these protections, exposing the limitations of static defense frameworks. In this work, we explore defending against evolving jailbreaking threats through the lens of context retrieval. First, we conduct a preliminary study demonstrating that even a minimal set of safety-aligned examples against a particular jailbreak can significantly enhance robustness against this attack pattern. Building on this insight, we further leverage the retrieval-augmented generation (RAG) techniques and propose Safety Context Retrieval (SCR), a scalable and robust safeguarding paradigm for LLMs against jailbreaking. Our comprehensive experiments demonstrate how SCR achieves superior defensive performance against both established and emerging jailbreaking tactics, contributing a new paradigm to LLM safety. Our code will be available upon publication.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱であることが知られており、敵は危険または非倫理的な反応を引き起こすために慎重に設計されたプロンプトを利用する。
このような脅威は、現実のデプロイメントにおけるLLMの安全性と信頼性に対する重大な懸念を引き起こしている。
既存の防衛機構は、そのようなリスクを部分的に軽減する一方で、その後の敵の技法の進歩により、これらの保護を回避し、静的防衛フレームワークの限界を露呈する新しいジェイルブレイク手法が実現されている。
本研究では,文脈検索のレンズを用いて,ジェイルブレイクの脅威に対する防御について検討する。
まず,特定のジェイルブレイクに対する最小限の安全対応例であっても,この攻撃パターンに対する堅牢性を大幅に向上させることができることを示す予備的研究を行った。
この知見に基づいて、我々は検索強化世代(RAG)技術をさらに活用し、LLMのジェイルブレイク防止のためのスケーラブルで堅牢な保護パラダイムであるSafety Context Retrieval(SCR)を提案する。
我々の総合的な実験は、SCRが確立されたものと出現したジェイルブレイク戦術の両方に対して優れた防御性能を達成し、LLMの安全性に新たなパラダイムをもたらすことを実証している。
私たちのコードは出版時に利用可能になります。
関連論文リスト
- Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment [97.38766396447369]
訓練時安全アライメントにもかかわらず、Multimodal Large Language Models (MLLM) はジェイルブレイク攻撃に対して脆弱である。
我々は,ジェイルブレイク攻撃に対する防御のために,制御復号化による安全な報酬モデルを活用する推論時防御フレームワークImmuneを提案する。
論文 参考訳(メタデータ) (2024-11-27T19:00:10Z) - MoJE: Mixture of Jailbreak Experts, Naive Tabular Classifiers as Guard for Prompt Attacks [2.873719680183099]
本稿では,大規模言語モデル(LLM)における脱獄予防の重要性を論じる。
我々は,既存の最先端ガードレールの限界を超えるよう設計された,新しいガードレールアーキテクチャであるMoJEを紹介する。
MoJEは、モデル推論中に最小限の計算オーバーヘッドを維持しながら、ジェイルブレイク攻撃の検出に優れる。
論文 参考訳(メタデータ) (2024-09-26T10:12:19Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - Revisiting Jailbreaking for Large Language Models: A Representation Engineering Perspective [43.94115802328438]
最近のジェイルブレイク攻撃の急増により、悪意のある入力に晒された場合、Large Language Models(LLM)の重大な脆弱性が明らかになった。
LLMの自己保護能力は,その表現空間内の特定の行動パターンと関係があることが示唆された。
これらのパターンは,数対のコントラストクエリで検出可能であることを示す。
論文 参考訳(メタデータ) (2024-01-12T00:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。