論文の概要: JBShield: Defending Large Language Models from Jailbreak Attacks through Activated Concept Analysis and Manipulation
- arxiv url: http://arxiv.org/abs/2502.07557v1
- Date: Tue, 11 Feb 2025 13:50:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:05:32.462076
- Title: JBShield: Defending Large Language Models from Jailbreak Attacks through Activated Concept Analysis and Manipulation
- Title(参考訳): JBShield: 概念分析と操作によるジェイルブレイク攻撃から大規模言語モデルを守る
- Authors: Shenyi Zhang, Yuchen Zhai, Keyan Guo, Hongxin Hu, Shengnan Guo, Zheng Fang, Lingchen Zhao, Chao Shen, Cong Wang, Qian Wang,
- Abstract要約: 大規模言語モデル(LLM)は、ジェイルブレイク攻撃に弱いままである。
本稿では,JBShield-DとJBShield-Mの2つの主要コンポーネントからなる総合的ジェイルブレイク防御フレームワークJBShieldを提案する。
- 参考スコア(独自算出の注目度): 22.75124155879712
- License:
- Abstract: Despite the implementation of safety alignment strategies, large language models (LLMs) remain vulnerable to jailbreak attacks, which undermine these safety guardrails and pose significant security threats. Some defenses have been proposed to detect or mitigate jailbreaks, but they are unable to withstand the test of time due to an insufficient understanding of jailbreak mechanisms. In this work, we investigate the mechanisms behind jailbreaks based on the Linear Representation Hypothesis (LRH), which states that neural networks encode high-level concepts as subspaces in their hidden representations. We define the toxic semantics in harmful and jailbreak prompts as toxic concepts and describe the semantics in jailbreak prompts that manipulate LLMs to comply with unsafe requests as jailbreak concepts. Through concept extraction and analysis, we reveal that LLMs can recognize the toxic concepts in both harmful and jailbreak prompts. However, unlike harmful prompts, jailbreak prompts activate the jailbreak concepts and alter the LLM output from rejection to compliance. Building on our analysis, we propose a comprehensive jailbreak defense framework, JBShield, consisting of two key components: jailbreak detection JBShield-D and mitigation JBShield-M. JBShield-D identifies jailbreak prompts by determining whether the input activates both toxic and jailbreak concepts. When a jailbreak prompt is detected, JBShield-M adjusts the hidden representations of the target LLM by enhancing the toxic concept and weakening the jailbreak concept, ensuring LLMs produce safe content. Extensive experiments demonstrate the superior performance of JBShield, achieving an average detection accuracy of 0.95 and reducing the average attack success rate of various jailbreak attacks to 2% from 61% across distinct LLMs.
- Abstract(参考訳): 安全アライメント戦略の実装にもかかわらず、大きな言語モデル(LLM)は、これらの安全ガードレールを損なうジェイルブレイク攻撃に弱いままであり、重大なセキュリティ脅威を引き起こす。
いくつかの防衛策は、脱獄を検知または緩和するために提案されているが、脱獄機構の理解が不十分なため、時間の試験に耐えられない。
本研究では,Linear Representation hypothesis (LRH)に基づくジェイルブレイクの背後にあるメカニズムを考察し,ニューラルネットワークが隠れた表現のサブ空間として高レベル概念を符号化していることを示す。
有害および脱獄プロンプトの有害なセマンティクスを有害な概念として定義し,無害な要求に対応するためにLDMを操作するジェイルブレイクプロンプトのセマンティクスをジェイルブレイク概念として記述する。
概念抽出と分析により,LLMは有害および脱獄のプロンプトの両方において有害な概念を認識できることが明らかとなった。
しかし、有害なプロンプトとは異なり、ジェイルブレイクプロンプトはジェイルブレイクの概念を活性化し、LLM出力を拒絶からコンプライアンスに変更する。
本稿では,JBShield-DとJBShield-Mの2つの重要なコンポーネントからなる総合的ジェイルブレイク防御フレームワークJBShieldを提案する。
JBShield-Dは、入力が毒性とジェイルブレイクの概念の両方を活性化するかどうかを判断することで、ジェイルブレイクプロンプトを特定する。
ジェイルブレイクプロンプトが検出されると、JBShield-Mは、有害な概念を強化し、ジェイルブレイクの概念を弱め、LLMが安全なコンテンツを生成することを保証することにより、ターゲットLDMの隠れ表現を調整する。
大規模な実験では、JBShieldの優れた性能を示し、平均検出精度0.95を達成し、様々なジェイルブレイク攻撃の攻撃成功率を異なるLLMで61%から2%に下げた。
関連論文リスト
- JailbreakLens: Interpreting Jailbreak Mechanism in the Lens of Representation and Circuit [21.380057443286034]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
脱獄攻撃は多いが、根底にあるメカニズムの理解は依然として限られている。
論文 参考訳(メタデータ) (2024-11-17T16:08:34Z) - Rapid Response: Mitigating LLM Jailbreaks with a Few Examples [13.841146655178585]
我々は,少数の攻撃を観測した後に,脱獄のクラス全体をブロックするために,迅速な応答手法を開発した。
我々は5つの迅速応答法を評価し,それぞれがジェイルブレイク増殖を利用した。
我々の最強の方法は、ジェイルブレイクの非分配セットで240以上、アウト・オブ・ディストリビューションセットで15以上、攻撃成功率で240以上削減する。
論文 参考訳(メタデータ) (2024-11-12T02:44:49Z) - SQL Injection Jailbreak: A Structural Disaster of Large Language Models [71.55108680517422]
LLMの外部特性をターゲットとした新しいジェイルブレイク手法を提案する。
ユーザプロンプトにジェイルブレイク情報を注入することで、SIJは有害なコンテンツを出力するモデルをうまく誘導する。
本稿では,SIJに対抗するために,セルフリマインダーキーと呼ばれる単純な防御手法を提案する。
論文 参考訳(メタデータ) (2024-11-03T13:36:34Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - HSF: Defending against Jailbreak Attacks with Hidden State Filtering [14.031010511732008]
隠れ状態フィルタ(HSF)に基づくジェイルブレイク攻撃防御戦略を提案する。
HSFは、推論プロセスが始まる前に、モデルが相手の入力をプリエンプティブに識別し、拒否することを可能にする。
不正なユーザクエリに対する応答を最小限に抑えながら、Jailbreak攻撃の成功率を大幅に低下させる。
論文 参考訳(メタデータ) (2024-08-31T06:50:07Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection [54.05862550647966]
本稿では、以前LLMセキュリティで見過ごされていた特別なトークンを活用して、ジェイルブレイク攻撃を改善する仮想コンテキストを提案する。
総合的な評価によると、仮想コンテキストによるジェイルブレイク攻撃は、4つの広く使われているジェイルブレイク手法の成功率を約40%向上させることができる。
論文 参考訳(メタデータ) (2024-06-28T11:35:54Z) - EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。
Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。
10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文 参考訳(メタデータ) (2024-03-18T18:39:53Z) - Comprehensive Assessment of Jailbreak Attacks Against LLMs [26.981225219312627]
様々なジェイルブレイク攻撃法を大規模に測定した。
我々は17の最先端のジェイルブレイク手法を収集し、それらの特徴を要約し、新しいジェイルブレイク攻撃分類を確立した。
検閲された8つのLLMと16の違反カテゴリからの160の質問に基づいて、攻撃の有効性を統一的かつ公平に評価する。
論文 参考訳(メタデータ) (2024-02-08T13:42:50Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。