論文の概要: JailbreaksOverTime: Detecting Jailbreak Attacks Under Distribution Shift
- arxiv url: http://arxiv.org/abs/2504.19440v1
- Date: Mon, 28 Apr 2025 03:01:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.293644
- Title: JailbreaksOverTime: Detecting Jailbreak Attacks Under Distribution Shift
- Title(参考訳): JailbreakOverTime: 配信シフト中のJailbreak攻撃を検出する
- Authors: Julien Piet, Xiao Huang, Dennis Jacob, Annabella Chow, Maha Alrashed, Geng Zhao, Zhanhao Hu, Chawin Sitawarin, Basel Alomair, David Wagner,
- Abstract要約: 継続的学習を用いてジェイルブレイクを検出し、新しいジェイルブレイクに迅速に適応する方法を示す。
新規のジェイルブレイクを特定するために,教師なしのアクティブモニタリング手法を導入する。
- 参考スコア(独自算出の注目度): 10.737151905158926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety and security remain critical concerns in AI deployment. Despite safety training through reinforcement learning with human feedback (RLHF) [ 32], language models remain vulnerable to jailbreak attacks that bypass safety guardrails. Universal jailbreaks - prefixes that can circumvent alignment for any payload - are particularly concerning. We show empirically that jailbreak detection systems face distribution shift, with detectors trained at one point in time performing poorly against newer exploits. To study this problem, we release JailbreaksOverTime, a comprehensive dataset of timestamped real user interactions containing both benign requests and jailbreak attempts collected over 10 months. We propose a two-pronged method for defenders to detect new jailbreaks and continuously update their detectors. First, we show how to use continuous learning to detect jailbreaks and adapt rapidly to new emerging jailbreaks. While detectors trained at a single point in time eventually fail due to drift, we find that universal jailbreaks evolve slowly enough for self-training to be effective. Retraining our detection model weekly using its own labels - with no new human labels - reduces the false negative rate from 4% to 0.3% at a false positive rate of 0.1%. Second, we introduce an unsupervised active monitoring approach to identify novel jailbreaks. Rather than classifying inputs directly, we recognize jailbreaks by their behavior, specifically, their ability to trigger models to respond to known-harmful prompts. This approach has a higher false negative rate (4.1%) than supervised methods, but it successfully identified some out-of-distribution attacks that were missed by the continuous learning approach.
- Abstract(参考訳): 安全とセキュリティは、AIデプロイメントにおいて重要な関心事である。
人間のフィードバックによる強化学習(RLHF)[32]による安全訓練にもかかわらず、安全ガードレールをバイパスする脱獄攻撃に対して言語モデルは脆弱である。
ユニバーサル・ジェイルブレイク(任意のペイロードのアライメントを回避できるプレフィックス)は特に関係している。
我々は、jailbreak検出システムが、ある時点でトレーニングされた検出器が、新しいエクスプロイトに対して不十分に動作している場合、分散シフトに直面していることを実証的に示す。
この問題を解決するために、私たちはJailbreaksOverTimeをリリースしました。これは10ヶ月にわたって収集された、良質なリクエストとJailbreakの試みの両方を含む、タイムスタンプ付きの実際のユーザインタラクションの包括的なデータセットです。
本稿では,ディフェンダーが新たなジェイルブレイクを検知し,継続的に検出装置を更新するための2段階の手法を提案する。
まず、継続的学習を用いてジェイルブレイクを検出し、新しいジェイルブレイクに迅速に適応する方法を示す。
一度に一度に訓練された検出器は、最終的にドリフトによって失敗するが、普遍的なジェイルブレイクは、自己学習が効果的になるのに十分な速度で進化する。
新たな人間のラベルのない、独自のラベルを使って毎週検出モデルをトレーニングすることは、偽陽性率0.1%で偽陰性率を4%から0.3%に下げる。
第2に,新しいジェイルブレイクを特定するために,教師なしのアクティブモニタリング手法を導入する。
入力を直接分類するのではなく、これらの行動、特に既知の有害なプロンプトに反応するモデルをトリガーする能力によってジェイルブレイクを認識する。
このアプローチは教師付き手法よりも偽陰性率(4.1%)が高いが、継続的学習アプローチで見逃されたアウト・オブ・ディストリビューション・アタックの特定に成功した。
関連論文リスト
- The Jailbreak Tax: How Useful are Your Jailbreak Outputs? [21.453837660747844]
既存のjailbreakによって生成されたモデル出力が実際に有用かどうかを問う。
8つの代表的なジェイルブレイクに対する評価は、ジェイルブレイク応答におけるモデルユーティリティの一貫した低下を示す。
全体として、我々の研究は、AI安全性の新たな重要な指標としてジェイルブレイク税を提案している。
論文 参考訳(メタデータ) (2025-04-14T20:30:41Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Rapid Response: Mitigating LLM Jailbreaks with a Few Examples [13.841146655178585]
我々は,少数の攻撃を観測した後に,脱獄のクラス全体をブロックするために,迅速な応答手法を開発した。
我々は5つの迅速応答法を評価し,それぞれがジェイルブレイク増殖を利用した。
我々の最強の方法は、ジェイルブレイクの非分配セットで240以上、アウト・オブ・ディストリビューションセットで15以上、攻撃成功率で240以上削減する。
論文 参考訳(メタデータ) (2024-11-12T02:44:49Z) - What Features in Prompts Jailbreak LLMs? Investigating the Mechanisms Behind Attacks [3.0700566896646047]
異なるジェイルブレイク手法が、異なる非線形特徴を介してプロンプトで動作することを示す。
これらの機械的ジェイルブレイクは、トレーニングされた35のテクニックのうち34つよりも確実にGemma-7B-ITをジェイルブレイクすることができる。
論文 参考訳(メタデータ) (2024-11-02T17:29:47Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models [66.34505141027624]
我々は、WildTeamingを紹介した。これは自動LLM安全リチームフレームワークで、Wild-Chatbotインタラクションをマイニングし、新しいジェイルブレイク戦術の5.7Kのユニークなクラスタを発見する。
WildTeamingは、未確認のフロンティアLSMの脆弱性を明らかにし、最大4.6倍の多様性と敵の攻撃に成功した。
論文 参考訳(メタデータ) (2024-06-26T17:31:22Z) - Understanding Jailbreak Success: A Study of Latent Space Dynamics in Large Language Models [4.547063832007314]
単一のクラスからジェイルブレイクベクトルを抽出することで、他のセマンティックな異なるクラスからジェイルブレイクの有効性を緩和することができる。
有害性特徴抑制の潜在的共通メカニズムについて検討し、有効なジェイルブレイクが即時有害性に対するモデルの認識を著しく低下させる証拠を見出した。
論文 参考訳(メタデータ) (2024-06-13T16:26:47Z) - A StrongREJECT for Empty Jailbreaks [72.8807309802266]
StrongREJECTは、ジェイルブレイクのパフォーマンスを評価するための高品質なベンチマークである。
これは、被害者モデルが禁止されたプロンプトに対する応答の有害性を評価する。
それは、ジェイルブレイクの有効性の人間の判断と最先端の合意を達成します。
論文 参考訳(メタデータ) (2024-02-15T18:58:09Z) - Comprehensive Assessment of Jailbreak Attacks Against LLMs [26.981225219312627]
様々なジェイルブレイク攻撃法を大規模に測定した。
我々は17の最先端のジェイルブレイク手法を収集し、それらの特徴を要約し、新しいジェイルブレイク攻撃分類を確立した。
検閲された8つのLLMと16の違反カテゴリからの160の質問に基づいて、攻撃の有効性を統一的かつ公平に評価する。
論文 参考訳(メタデータ) (2024-02-08T13:42:50Z) - Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts [64.60375604495883]
GPT-4Vでは,システムに侵入する脆弱性が発見された。
GPT-4を自身に対するレッド・チーム・ツールとして活用することで、盗難システムプロンプトを利用した脱獄プロンプトの可能性を探索することを目指している。
また,システムプロンプトの変更による脱獄攻撃に対する防御効果も評価した。
論文 参考訳(メタデータ) (2023-11-15T17:17:39Z) - "Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models [50.22128133926407]
我々は2022年12月から2023年12月までの1,405件の脱獄プロンプトを包括的に分析する。
131のjailbreakコミュニティを特定し,Jailbreakプロンプトの特徴とその主要な攻撃戦略を明らかにする。
また,ChatGPT (GPT-3.5) と GPT-4 の攻撃成功率 0.95 を達成できる5つの有効なジェイルブレイクプロンプトを同定した。
論文 参考訳(メタデータ) (2023-08-07T16:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。