論文の概要: Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense
- arxiv url: http://arxiv.org/abs/2501.02629v1
- Date: Sun, 05 Jan 2025 19:06:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:09:42.546080
- Title: Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense
- Title(参考訳): 層レベルの自己暴露とパッチ: 脱獄防御のための肯定的な利害軽減
- Authors: Yang Ouyang, Hengrui Gu, Shuhang Lin, Wenyue Hua, Jie Peng, Bhavya Kailkhura, Tianlong Chen, Kaixiong Zhou,
- Abstract要約: ジェイルブレイク攻撃は 意図しない 有害な出力を 引き起こす脆弱性を悪用する
私たちは、jailbreak攻撃を防御するために設計された新しい方法論であるLayer-AdvPatcherを紹介します。
我々は,2つのモデル,4つのベンチマークデータセット,および複数の最先端のジェイルブレイクベンチマークに関する広範な実験を行い,アプローチの有効性を実証した。
- 参考スコア(独自算出の注目度): 57.86886012610389
- License:
- Abstract: As large language models (LLMs) are increasingly deployed in diverse applications, including chatbot assistants and code generation, aligning their behavior with safety and ethical standards has become paramount. However, jailbreak attacks, which exploit vulnerabilities to elicit unintended or harmful outputs, threaten LLMs' safety significantly. In this paper, we introduce Layer-AdvPatcher, a novel methodology designed to defend against jailbreak attacks by utilizing an unlearning strategy to patch specific layers within LLMs through self-augmented datasets. Our insight is that certain layer(s), tend to produce affirmative tokens when faced with harmful prompts. By identifying these layers and adversarially exposing them to generate more harmful data, one can understand their inherent and diverse vulnerabilities to attacks. With these exposures, we then "unlearn" these issues, reducing the impact of affirmative tokens and hence minimizing jailbreak risks while keeping the model's responses to safe queries intact. We conduct extensive experiments on two models, four benchmark datasets, and multiple state-of-the-art jailbreak benchmarks to demonstrate the efficacy of our approach. Results indicate that our framework reduces the harmfulness and attack success rate of jailbreak attacks without compromising utility for benign queries compared to recent defense methods.
- Abstract(参考訳): 大規模な言語モデル(LLM)がチャットボットアシスタントやコード生成など様々なアプリケーションに展開されるにつれて、彼らの行動と安全性と倫理基準の整合性が最重要になっている。
しかし、意図しないまたは有害な出力を誘発する脆弱性を利用するジェイルブレイク攻撃は、LLMの安全性を著しく脅かす。
本稿では,LLM内の特定のレイヤを自己拡張データセットを通じてパッチするアンラーニング戦略を利用して,ジェイルブレイク攻撃を防御する新しい手法であるLayer-AdvPatcherを紹介する。
我々の洞察では、ある層は有害なプロンプトに直面した時に肯定的なトークンを生成する傾向がある。
これらの層を識別し、より有害なデータを生成するために敵対的に公開することにより、攻撃に固有のさまざまな脆弱性を理解することができる。
これらの露出により、これらの問題を“未学習”し、肯定的なトークンの影響を減らし、モデルの安全なクエリに対する応答をそのまま保ちながら、ジェイルブレイクのリスクを最小限にする。
我々は,2つのモデル,4つのベンチマークデータセット,および複数の最先端のジェイルブレイクベンチマークに関する広範な実験を行い,アプローチの有効性を実証した。
以上の結果から,本フレームワークは,最近の防御手法と比較して,良質なクエリの利便性を損なうことなく,ジェイルブレイク攻撃の有害性と攻撃成功率を低下させることが示唆された。
関連論文リスト
- Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - MoJE: Mixture of Jailbreak Experts, Naive Tabular Classifiers as Guard for Prompt Attacks [2.873719680183099]
本稿では,大規模言語モデル(LLM)における脱獄予防の重要性を論じる。
我々は,既存の最先端ガードレールの限界を超えるよう設計された,新しいガードレールアーキテクチャであるMoJEを紹介する。
MoJEは、モデル推論中に最小限の計算オーバーヘッドを維持しながら、ジェイルブレイク攻撃の検出に優れる。
論文 参考訳(メタデータ) (2024-09-26T10:12:19Z) - HSF: Defending against Jailbreak Attacks with Hidden State Filtering [14.031010511732008]
隠れ状態フィルタ(HSF)に基づくジェイルブレイク攻撃防御戦略を提案する。
HSFは、推論プロセスが始まる前に、モデルが相手の入力をプリエンプティブに識別し、拒否することを可能にする。
不正なユーザクエリに対する応答を最小限に抑えながら、Jailbreak攻撃の成功率を大幅に低下させる。
論文 参考訳(メタデータ) (2024-08-31T06:50:07Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection [54.05862550647966]
本稿では、以前LLMセキュリティで見過ごされていた特別なトークンを活用して、ジェイルブレイク攻撃を改善する仮想コンテキストを提案する。
総合的な評価によると、仮想コンテキストによるジェイルブレイク攻撃は、4つの広く使われているジェイルブレイク手法の成功率を約40%向上させることができる。
論文 参考訳(メタデータ) (2024-06-28T11:35:54Z) - WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models [66.34505141027624]
我々は、WildTeamingを紹介した。これは自動LLM安全リチームフレームワークで、Wild-Chatbotインタラクションをマイニングし、新しいジェイルブレイク戦術の5.7Kのユニークなクラスタを発見する。
WildTeamingは、未確認のフロンティアLSMの脆弱性を明らかにし、最大4.6倍の多様性と敵の攻撃に成功した。
論文 参考訳(メタデータ) (2024-06-26T17:31:22Z) - Enhancing Jailbreak Attack Against Large Language Models through Silent Tokens [22.24239212756129]
既存のジェイルブレイク攻撃では、人間の専門家か、複雑なアルゴリズムを使ってプロンプトを作らなければならない。
eosトークンのみを活用する単純な攻撃であるBOOSTを導入する。
LLMがジェイルブレイク攻撃に対して脆弱であることが判明し、強力な安全アライメントアプローチの開発が動機となった。
論文 参考訳(メタデータ) (2024-05-31T07:41:03Z) - SafeDecoding: Defending against Jailbreak Attacks via Safety-Aware Decoding [35.750885132167504]
我々は,大規模言語モデル(LLM)の安全性を意識したデコーディング戦略であるSafeDecodingを導入し,ユーザクエリに対する有用かつ無害な応答を生成する。
この結果から,SafeDecodingは,ユーザクエリに対する応答の利便性を損なうことなく,攻撃成功率やジェイルブレイク攻撃の有害性を著しく低下させることがわかった。
論文 参考訳(メタデータ) (2024-02-14T06:54:31Z) - Comprehensive Assessment of Jailbreak Attacks Against LLMs [26.981225219312627]
様々なジェイルブレイク攻撃法を大規模に測定した。
我々は17の最先端のジェイルブレイク手法を収集し、それらの特徴を要約し、新しいジェイルブレイク攻撃分類を確立した。
検閲された8つのLLMと16の違反カテゴリからの160の質問に基づいて、攻撃の有効性を統一的かつ公平に評価する。
論文 参考訳(メタデータ) (2024-02-08T13:42:50Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。