Fugu-MT 論文翻訳(概要): JBShield: Defending Large Language Models from Jailbreak Attacks through Activated Concept Analysis and Manipulation

論文の概要: JBShield: Defending Large Language Models from Jailbreak Attacks through Activated Concept Analysis and Manipulation

arxiv url: http://arxiv.org/abs/2502.07557v1
Date: Tue, 11 Feb 2025 13:50:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-12 18:22:48.175732
Title: JBShield: Defending Large Language Models from Jailbreak Attacks through Activated Concept Analysis and Manipulation
Title（参考訳）: JBShield: 概念分析と操作によるジェイルブレイク攻撃から大規模言語モデルを守る
Authors: Shenyi Zhang, Yuchen Zhai, Keyan Guo, Hongxin Hu, Shengnan Guo, Zheng Fang, Lingchen Zhao, Chao Shen, Cong Wang, Qian Wang,
Abstract要約: 大規模言語モデル(LLM)は、ジェイルブレイク攻撃に弱いままである。本稿では,JBShield-DとJBShield-Mの2つの主要コンポーネントからなる総合的ジェイルブレイク防御フレームワークJBShieldを提案する。
参考スコア（独自算出の注目度）: 22.75124155879712
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the implementation of safety alignment strategies, large language models (LLMs) remain vulnerable to jailbreak attacks, which undermine these safety guardrails and pose significant security threats. Some defenses have been proposed to detect or mitigate jailbreaks, but they are unable to withstand the test of time due to an insufficient understanding of jailbreak mechanisms. In this work, we investigate the mechanisms behind jailbreaks based on the Linear Representation Hypothesis (LRH), which states that neural networks encode high-level concepts as subspaces in their hidden representations. We define the toxic semantics in harmful and jailbreak prompts as toxic concepts and describe the semantics in jailbreak prompts that manipulate LLMs to comply with unsafe requests as jailbreak concepts. Through concept extraction and analysis, we reveal that LLMs can recognize the toxic concepts in both harmful and jailbreak prompts. However, unlike harmful prompts, jailbreak prompts activate the jailbreak concepts and alter the LLM output from rejection to compliance. Building on our analysis, we propose a comprehensive jailbreak defense framework, JBShield, consisting of two key components: jailbreak detection JBShield-D and mitigation JBShield-M. JBShield-D identifies jailbreak prompts by determining whether the input activates both toxic and jailbreak concepts. When a jailbreak prompt is detected, JBShield-M adjusts the hidden representations of the target LLM by enhancing the toxic concept and weakening the jailbreak concept, ensuring LLMs produce safe content. Extensive experiments demonstrate the superior performance of JBShield, achieving an average detection accuracy of 0.95 and reducing the average attack success rate of various jailbreak attacks to 2% from 61% across distinct LLMs.
Abstract（参考訳）: 安全アライメント戦略の実装にもかかわらず、大きな言語モデル(LLM)は、これらの安全ガードレールを損なうジェイルブレイク攻撃に弱いままであり、重大なセキュリティ脅威を引き起こす。いくつかの防衛策は、脱獄を検知または緩和するために提案されているが、脱獄機構の理解が不十分なため、時間の試験に耐えられない。本研究では,Linear Representation hypothesis (LRH)に基づくジェイルブレイクの背後にあるメカニズムを考察し,ニューラルネットワークが隠れた表現のサブ空間として高レベル概念を符号化していることを示す。有害および脱獄プロンプトの有害なセマンティクスを有害な概念として定義し,無害な要求に対応するためにLDMを操作するジェイルブレイクプロンプトのセマンティクスをジェイルブレイク概念として記述する。概念抽出と分析により,LLMは有害および脱獄のプロンプトの両方において有害な概念を認識できることが明らかとなった。しかし、有害なプロンプトとは異なり、ジェイルブレイクプロンプトはジェイルブレイクの概念を活性化し、LLM出力を拒絶からコンプライアンスに変更する。本稿では,JBShield-DとJBShield-Mの2つの重要なコンポーネントからなる総合的ジェイルブレイク防御フレームワークJBShieldを提案する。 JBShield-Dは、入力が毒性とジェイルブレイクの概念の両方を活性化するかどうかを判断することで、ジェイルブレイクプロンプトを特定する。ジェイルブレイクプロンプトが検出されると、JBShield-Mは、有害な概念を強化し、ジェイルブレイクの概念を弱め、LLMが安全なコンテンツを生成することを保証することにより、ターゲットLDMの隠れ表現を調整する。大規模な実験では、JBShieldの優れた性能を示し、平均検出精度0.95を達成し、様々なジェイルブレイク攻撃の攻撃成功率を異なるLLMで61%から2%に下げた。

関連論文リスト

Utilizing Jailbreak Probability to Attack and Safeguard Multimodal LLMs [3.6660959979850487]
入力のジェイルブレイクポテンシャルを定量化するためにジェイルブレイク確率を導入し、この入力によってMLLMが悪意ある応答を発生させる可能性を示す。具体的には,Jailbreak-Probability-based Attack (JPA)を提案する。また,攻撃対策として,Jailbreak-Probability-based FinetuningJPFとJailbreak-Probability-based Defensive Noiseを提案する。
論文参考訳（メタデータ） (2025-03-10T07:10:38Z)
Rewrite to Jailbreak: Discover Learnable and Transferable Implicit Harmfulness Instruction [32.04296423547049]
大規模言語モデル(LLM)は様々な領域に広く適用されている。 LLMを攻撃するための転送可能なブラックボックスジェイルブレイク法であるRewrite to Jailbreak (R2J)アプローチを提案する。
論文参考訳（メタデータ） (2025-02-16T11:43:39Z)
xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文参考訳（メタデータ） (2025-01-28T06:07:58Z)
Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [57.86886012610389]
ジェイルブレイク攻撃は意図しない有害な出力を引き起こす脆弱性を悪用する私たちは、jailbreak攻撃を防御するために設計された新しい方法論であるLayer-AdvPatcherを紹介します。我々は,2つのモデル,4つのベンチマークデータセット,および複数の最先端のジェイルブレイクベンチマークに関する広範な実験を行い,アプローチの有効性を実証した。
論文参考訳（メタデータ） (2025-01-05T19:06:03Z)
Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment [97.38766396447369]
訓練時安全アライメントにもかかわらず、MLLMは脱獄攻撃に弱いままである。我々は、安全な報酬モデルを利用してジェイルブレイク攻撃を防御する推論時防衛フレームワークImmuneを提案する。
論文参考訳（メタデータ） (2024-11-27T19:00:10Z)
JailbreakLens: Interpreting Jailbreak Mechanism in the Lens of Representation and Circuit [21.380057443286034]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。脱獄攻撃は多いが、根底にあるメカニズムの理解は依然として限られている。
論文参考訳（メタデータ） (2024-11-17T16:08:34Z)
Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文参考訳（メタデータ） (2024-10-15T06:31:04Z)
h4rm3l: A language for Composable Jailbreak Attack Synthesis [48.5611060845958]
h4rm3lは、人間が読めるドメイン固有言語とのギャップに対処する新しいアプローチである。我々は、h4rm3lの合成攻撃は、文献における既存のジェイルブレイク攻撃よりも多様で、より成功していることを示す。
論文参考訳（メタデータ） (2024-08-09T01:45:39Z)
EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。 LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文参考訳（メタデータ） (2024-08-07T07:46:08Z)
Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection [54.05862550647966]
本稿では、以前LLMセキュリティで見過ごされていた特別なトークンを活用して、ジェイルブレイク攻撃を改善する仮想コンテキストを提案する。総合的な評価によると、仮想コンテキストによるジェイルブレイク攻撃は、4つの広く使われているジェイルブレイク手法の成功率を約40%向上させることができる。
論文参考訳（メタデータ） (2024-06-28T11:35:54Z)
EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。 Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。 10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文参考訳（メタデータ） (2024-03-18T18:39:53Z)
Comprehensive Assessment of Jailbreak Attacks Against LLMs [26.981225219312627]
様々なジェイルブレイク攻撃法を大規模に測定した。我々は17の最先端のジェイルブレイク手法を収集し、それらの特徴を要約し、新しいジェイルブレイク攻撃分類を確立した。検閲された8つのLLMと16の違反カテゴリからの160の質問に基づいて、攻撃の有効性を統一的かつ公平に評価する。
論文参考訳（メタデータ） (2024-02-08T13:42:50Z)
A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。ジェイルブレイク」と呼ばれる敵のプロンプトは保護を回避できる有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文参考訳（メタデータ） (2023-11-14T16:02:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。