論文の概要: Injecting Universal Jailbreak Backdoors into LLMs in Minutes
- arxiv url: http://arxiv.org/abs/2502.10438v1
- Date: Sun, 09 Feb 2025 17:03:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 03:23:09.302391
- Title: Injecting Universal Jailbreak Backdoors into LLMs in Minutes
- Title(参考訳): ユニバーサル・ジェイルブレイクのバックドアを1分でLLMに注入する
- Authors: Zhuowei Chen, Qiannan Zhang, Shichao Pei,
- Abstract要約: そこで本稿では, モデル編集技術を利用して, 安全に配慮したLLMに, 数分で最小限の介入で汎用ジェイルブレイクバックドアを注入する新しいジェイルブレイクバックドアインジェクション法を提案する。
JailbreakEditは、マルチノードターゲット推定を統合して、ジェイルブレイクスペースを推定し、バックドアからこの推定ジェイルブレイクスペースへのショートカットを生成する。
我々の攻撃は、バックドアに強力なセマンティクスを付加することで、モデルの注意を効果的にシフトさせ、内部の安全メカニズムをバイパスすることを可能にする。
- 参考スコア(独自算出の注目度): 13.658942796267016
- License:
- Abstract: Jailbreak backdoor attacks on LLMs have garnered attention for their effectiveness and stealth. However, existing methods rely on the crafting of poisoned datasets and the time-consuming process of fine-tuning. In this work, we propose JailbreakEdit, a novel jailbreak backdoor injection method that exploits model editing techniques to inject a universal jailbreak backdoor into safety-aligned LLMs with minimal intervention in minutes. JailbreakEdit integrates a multi-node target estimation to estimate the jailbreak space, thus creating shortcuts from the backdoor to this estimated jailbreak space that induce jailbreak actions. Our attack effectively shifts the models' attention by attaching strong semantics to the backdoor, enabling it to bypass internal safety mechanisms. Experimental results show that JailbreakEdit achieves a high jailbreak success rate on jailbreak prompts while preserving generation quality, and safe performance on normal queries. Our findings underscore the effectiveness, stealthiness, and explainability of JailbreakEdit, emphasizing the need for more advanced defense mechanisms in LLMs.
- Abstract(参考訳): LLMに対するジェイルブレイクのバックドア攻撃は、その効果とステルスに注意を向けている。
しかし、既存の手法は、有毒なデータセットの作成と微調整の時間のかかるプロセスに依存している。
本研究は,ジャムブレイクバックドア注入法であるジェイルブレイク編集を提案する。ジャムブレイクバックドアを安全に配置したLCMに数分で最小限の介入で注入するためのモデル編集手法を利用する。
JailbreakEditは、マルチノードターゲット推定を統合して、ジェイルブレイクスペースを推定し、バックドアからこの推定ジェイルブレイクスペースへのショートカットを生成し、ジェイルブレイクアクションを誘発する。
我々の攻撃は、バックドアに強力なセマンティクスを付加することで、モデルの注意を効果的にシフトさせ、内部の安全メカニズムをバイパスすることを可能にする。
JailbreakEditは、生成品質を維持しつつジェイルブレイクプロンプトに対して高いジェイルブレイク成功率を達成し、通常のクエリ上での安全なパフォーマンスを実現している。
以上の結果から,JailbreakEditの有効性,ステルス性,説明性などを明らかにするとともに,LLMのより高度な防御機構の必要性を強調した。
関連論文リスト
- Rewrite to Jailbreak: Discover Learnable and Transferable Implicit Harmfulness Instruction [32.04296423547049]
大規模言語モデル(LLM)は様々な領域に広く適用されている。
LLMを攻撃するための転送可能なブラックボックスジェイルブレイク法であるRewrite to Jailbreak (R2J)アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-16T11:43:39Z) - JBShield: Defending Large Language Models from Jailbreak Attacks through Activated Concept Analysis and Manipulation [22.75124155879712]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に弱いままである。
本稿では,JBShield-DとJBShield-Mの2つの主要コンポーネントからなる総合的ジェイルブレイク防御フレームワークJBShieldを提案する。
論文 参考訳(メタデータ) (2025-02-11T13:50:50Z) - Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment [97.38766396447369]
訓練時安全アライメントにもかかわらず、MLLMは脱獄攻撃に弱いままである。
我々は、安全な報酬モデルを利用してジェイルブレイク攻撃を防御する推論時防衛フレームワークImmuneを提案する。
論文 参考訳(メタデータ) (2024-11-27T19:00:10Z) - JailbreakLens: Interpreting Jailbreak Mechanism in the Lens of Representation and Circuit [21.380057443286034]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
脱獄攻撃は多いが、根底にあるメカニズムの理解は依然として限られている。
論文 参考訳(メタデータ) (2024-11-17T16:08:34Z) - SQL Injection Jailbreak: A Structural Disaster of Large Language Models [71.55108680517422]
LLMの外部特性をターゲットとした新しいジェイルブレイク手法を提案する。
ユーザプロンプトにジェイルブレイク情報を注入することで、SIJは有害なコンテンツを出力するモデルをうまく誘導する。
本稿では,SIJに対抗するために,セルフリマインダーキーと呼ばれる単純な防御手法を提案する。
論文 参考訳(メタデータ) (2024-11-03T13:36:34Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。
Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。
10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文 参考訳(メタデータ) (2024-03-18T18:39:53Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。