論文の概要: Defense Against the Dark Prompts: Mitigating Best-of-N Jailbreaking with Prompt Evaluation
- arxiv url: http://arxiv.org/abs/2502.00580v1
- Date: Sat, 01 Feb 2025 22:26:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:06:32.182304
- Title: Defense Against the Dark Prompts: Mitigating Best-of-N Jailbreaking with Prompt Evaluation
- Title(参考訳): ダーク・プロンプトに対する防御:プロンプト・アセスメントによるベスト・オブ・Nのジェイルブレイクの軽減
- Authors: Stuart Armstrong, Matija Franklin, Connor Stevens, Rebecca Gorman,
- Abstract要約: 近年の研究では、ランダム拡張の繰り返し使用によるBest-of-Nのジェイルブレイクが、すべての主要言語モデルに対して有効であることが示されている。
BoNの論文で成功したジェイルブレイクの100%は、我々のDefense Against The Dark Promptsメソッドでブロックされていることがわかりました。
- 参考スコア(独自算出の注目度): 7.173484352846756
- License:
- Abstract: Recent work showed Best-of-N (BoN) jailbreaking using repeated use of random augmentations (such as capitalization, punctuation, etc) is effective against all major large language models (LLMs). We have found that $100\%$ of the BoN paper's successful jailbreaks (confidence interval $[99.65\%, 100.00\%]$) and $99.8\%$ of successful jailbreaks in our replication (confidence interval $[99.28\%, 99.98\%]$) were blocked with our Defense Against The Dark Prompts (DATDP) method. The DATDP algorithm works by repeatedly utilizing an evaluation LLM to evaluate a prompt for dangerous or manipulative behaviors--unlike some other approaches, DATDP also explicitly looks for jailbreaking attempts--until a robust safety rating is generated. This success persisted even when utilizing smaller LLMs to power the evaluation (Claude and LLaMa-3-8B-instruct proved almost equally capable). These results show that, though language models are sensitive to seemingly innocuous changes to inputs, they seem also capable of successfully evaluating the dangers of these inputs. Versions of DATDP can therefore be added cheaply to generative AI systems to produce an immediate significant increase in safety.
- Abstract(参考訳): 近年の研究では、ランダムな拡張(資本化、句読化など)を繰り返し使用したBest-of-N(BoN)のジェイルブレイクが、すべての主要言語モデル(LLM)に対して有効であることが示されている。
我々は、BoNの論文が成功したジェイルブレイク(ミッションインターバル$[99.65\%, 100.00\%]$)と、複製で成功したジェイルブレイクの99.8\%$(ミッションインターバル$[99.28\%, 99.98\%]$)の100\%が、我々のDATDP(Defense Against The Dark Prompts)メソッドでブロックされたことを発見した。
DATDPアルゴリズムは、危険またはマニピュティブな行動のプロンプトを評価するために、LCMの評価を何度も利用して機能する。
この成功は、より小型のLLMを使用して評価を行う場合でも続いた(ClaudeとLLaMa-3-8B-インストラクトはほぼ同等に機能することが証明された)。
これらの結果は、言語モデルが一見無害な入力の変化に敏感であるにもかかわらず、これらの入力の危険性を評価することに成功していることを示している。
したがって、DATDPのバージョンは、生成AIシステムに安価に追加でき、即ち安全性が大幅に向上する。
関連論文リスト
- xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [59.25318174362368]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - SQL Injection Jailbreak: A Structural Disaster of Large Language Models [71.55108680517422]
LLMの外部特性をターゲットとした新しいジェイルブレイク手法を提案する。
ユーザプロンプトにジェイルブレイク情報を注入することで、SIJは有害なコンテンツを出力するモデルをうまく誘導する。
本稿では,SIJに対抗するために,セルフリマインダーキーと呼ばれる単純な防御手法を提案する。
論文 参考訳(メタデータ) (2024-11-03T13:36:34Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - PAPILLON: Efficient and Stealthy Fuzz Testing-Powered Jailbreaks for LLMs [33.87649859430635]
大規模言語モデル(LLM)は様々なタスクに優れていますが、それでも脱獄攻撃に対して脆弱です。
本稿では,PAPILLONと呼ばれる新しいジェイルブレイク攻撃フレームワークを紹介する。
自動化されたブラックボックスのジェイルブレイク攻撃フレームワークで、一連のカスタマイズされた設計でブラックボックスのファズテストアプローチを適用する。
論文 参考訳(メタデータ) (2024-09-23T10:03:09Z) - "Not Aligned" is Not "Malicious": Being Careful about Hallucinations of Large Language Models' Jailbreak [41.03991506580652]
大規模言語モデル(LLM)の「ジェイルブレイク」は、大きな言語モデル(LLM)の安全性に関する主要な懸念事項である。
BabyBLUE"は、既存のjailbreakベンチマークを強化するための特別なバリデーションフレームワークを導入している。
論文 参考訳(メタデータ) (2024-06-17T15:51:01Z) - Improved Few-Shot Jailbreaking Can Circumvent Aligned Language Models and Their Defenses [37.56003689042975]
多数のデモ(最大数百)は、その長いコンテキスト能力を活用することで、最先端のLDMをジェイルブレイクすることができる。
本稿では,[/INST]のような特別なシステムトークンの注入や,収集したデモプールからのデモレベルのランダム検索などの改良手法を提案する。
論文 参考訳(メタデータ) (2024-06-03T12:59:17Z) - How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to
Challenge AI Safety by Humanizing LLMs [66.05593434288625]
本稿では, 大規模言語モデル (LLM) を人間のようなコミュニケーション手段として, ジェイルブレイクの新たな視点を紹介する。
本研究では,数十年にわたる社会科学研究から派生した説得的分類法を適用し,説得的敵対的プロンプト(PAP)をジェイルブレイク LLM に適用する。
PAPは、Llama 2-7b Chat、GPT-3.5、GPT-4の攻撃成功率を10ドルで一貫して92%以上達成している。
防衛面では,PAPに対する様々なメカニズムを探索し,既存の防衛に重大なギャップがあることを見出した。
論文 参考訳(メタデータ) (2024-01-12T16:13:24Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。