論文の概要: JailbreakLens: Interpreting Jailbreak Mechanism in the Lens of Representation and Circuit
- arxiv url: http://arxiv.org/abs/2411.11114v1
- Date: Sun, 17 Nov 2024 16:08:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:31:48.345978
- Title: JailbreakLens: Interpreting Jailbreak Mechanism in the Lens of Representation and Circuit
- Title(参考訳): JailbreakLens: 表現と回路のレンズにおけるジェイルブレイク機構の解釈
- Authors: Zeqing He, Zhibo Wang, Zhixuan Chu, Huiyu Xu, Rui Zheng, Kui Ren, Chun Chen,
- Abstract要約: 大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
脱獄攻撃は多いが、根底にあるメカニズムの理解は依然として限られている。
- 参考スコア(独自算出の注目度): 21.380057443286034
- License:
- Abstract: Despite the outstanding performance of Large language models (LLMs) in diverse tasks, they are vulnerable to jailbreak attacks, wherein adversarial prompts are crafted to bypass their security mechanisms and elicit unexpected responses.Although jailbreak attacks are prevalent, the understanding of their underlying mechanisms remains limited. Recent studies have explain typical jailbreaking behavior (e.g., the degree to which the model refuses to respond) of LLMs by analyzing the representation shifts in their latent space caused by jailbreak prompts or identifying key neurons that contribute to the success of these attacks. However, these studies neither explore diverse jailbreak patterns nor provide a fine-grained explanation from the failure of circuit to the changes of representational, leaving significant gaps in uncovering the jailbreak mechanism. In this paper, we propose JailbreakLens, an interpretation framework that analyzes jailbreak mechanisms from both representation (which reveals how jailbreaks alter the model's harmfulness perception) and circuit perspectives (which uncovers the causes of these deceptions by identifying key circuits contributing to the vulnerability), tracking their evolution throughout the entire response generation process. We then conduct an in-depth evaluation of jailbreak behavior on four mainstream LLMs under seven jailbreak strategies. Our evaluation finds that jailbreak prompts amplify components that reinforce affirmative responses while suppressing those that produce refusal. Although this manipulation shifts model representations toward safe clusters to deceive the LLM, leading it to provide detailed responses instead of refusals, it still produce abnormal activation which can be caught in the circuit analysis.
- Abstract(参考訳): 多様なタスクにおける大規模言語モデル(LLM)の卓越したパフォーマンスにもかかわらず、敵のプロンプトがセキュリティメカニズムをバイパスし、予期せぬ応答を誘発するジェイルブレイク攻撃には弱いが、その基盤となるメカニズムの理解は依然として限られている。
近年の研究では、Jailbreakプロンプトによって引き起こされる潜伏空間の表現変化を分析したり、これらの攻撃の成功に寄与する主要なニューロンを特定することによって、LLMの典型的なジェイルブレイク行動(例えば、モデルが反応を拒否する程度)を説明する。
しかし、これらの研究は多様なジェイルブレイクパターンを探索したり、回路の故障から表現の変化まで詳細に説明したりせず、ジェイルブレイク機構の解明に大きなギャップを残している。
本稿では,ジェイルブレイクのメカニズムを表現(ジェイルブレイクがモデルに有害な知覚をどう変化させるかを明らかにする)と回路的視点(脆弱性に寄与する鍵回路を特定することによって,これらの誤認の原因を明らかにする)の両方から解析し,応答生成プロセス全体の進化を追跡する解釈フレームワークであるJailbreakLensを提案する。
次に,7つのジェイルブレイク戦略の下で,4つの主要なLCM上でのジェイルブレイク行動の詳細な評価を行う。
評価の結果,jailbreakは肯定応答を補強する成分を増幅し,拒絶反応を誘発する成分を抑制できることがわかった。
この操作はモデル表現を安全なクラスタにシフトさせ、LCMを騙すようにし、拒絶ではなく詳細な応答を提供するが、回路解析で捉えられる異常なアクティベーションを発生させる。
関連論文リスト
- What Features in Prompts Jailbreak LLMs? Investigating the Mechanisms Behind Attacks [3.0700566896646047]
異なるジェイルブレイク手法が、異なる非線形特徴を介してプロンプトで動作することを示す。
これらの機械的ジェイルブレイクは、トレーニングされた35のテクニックのうち34つよりも確実にGemma-7B-ITをジェイルブレイクすることができる。
論文 参考訳(メタデータ) (2024-11-02T17:29:47Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection [54.05862550647966]
本稿では、以前LLMセキュリティで見過ごされていた特別なトークンを活用して、ジェイルブレイク攻撃を改善する仮想コンテキストを提案する。
総合的な評価によると、仮想コンテキストによるジェイルブレイク攻撃は、4つの広く使われているジェイルブレイク手法の成功率を約40%向上させることができる。
論文 参考訳(メタデータ) (2024-06-28T11:35:54Z) - Towards Understanding Jailbreak Attacks in LLMs: A Representation Space Analysis [47.81417828399084]
大規模言語モデル(LLM)は、有害な内容を出力するためにLLMを誤解させるジェイルブレーキング(jailbreaking)と呼ばれるタイプの攻撃を受けやすい。
本稿では, LLMの表現空間における有害かつ無害なプロンプトの挙動を考察し, ジェイルブレイク攻撃の本質的特性について検討する。
論文 参考訳(メタデータ) (2024-06-16T03:38:48Z) - Understanding Jailbreak Success: A Study of Latent Space Dynamics in Large Language Models [4.547063832007314]
単一のクラスからジェイルブレイクベクトルを抽出することで、他のセマンティックな異なるクラスからジェイルブレイクの有効性を緩和することができる。
有害性特徴抑制の潜在的共通メカニズムについて検討し、有効なジェイルブレイクが即時有害性に対するモデルの認識を著しく低下させる証拠を見出した。
論文 参考訳(メタデータ) (2024-06-13T16:26:47Z) - EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。
Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。
10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文 参考訳(メタデータ) (2024-03-18T18:39:53Z) - Foot In The Door: Understanding Large Language Model Jailbreaking via
Cognitive Psychology [12.584928288798658]
本研究では,大規模言語モデル(LLM)の内在的意思決定論理に関する心理学的視点を構築する。
フットイン・ザ・ドア(FITD)技術に基づく自動ブラックボックスジェイルブレイク手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T02:27:55Z) - A StrongREJECT for Empty Jailbreaks [72.8807309802266]
StrongREJECTは、ジェイルブレイクのパフォーマンスを評価するための高品質なベンチマークである。
これは、被害者モデルが禁止されたプロンプトに対する応答の有害性を評価する。
それは、ジェイルブレイクの有効性の人間の判断と最先端の合意を達成します。
論文 参考訳(メタデータ) (2024-02-15T18:58:09Z) - Comprehensive Assessment of Jailbreak Attacks Against LLMs [28.58973312098698]
4つのカテゴリから13の最先端ジェイルブレイク法,16の違反カテゴリから160の質問,6つの人気のあるLDMについて検討した。
実験の結果, 最適化されたジェイルブレイクは高い攻撃成功率を確実に達成することが示された。
攻撃性能と効率のトレードオフについて論じるとともに、脱獄プロンプトの転送性は依然として維持可能であることを示す。
論文 参考訳(メタデータ) (2024-02-08T13:42:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。