論文の概要: What Features in Prompts Jailbreak LLMs? Investigating the Mechanisms Behind Attacks
- arxiv url: http://arxiv.org/abs/2411.03343v2
- Date: Wed, 14 May 2025 12:32:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 15:30:05.421929
- Title: What Features in Prompts Jailbreak LLMs? Investigating the Mechanisms Behind Attacks
- Title(参考訳): プロンプト・ジェイルブレイク LLM の特徴 : 攻撃の背景にあるメカニズムを探る
- Authors: Nathalie Kirch, Constantin Weisser, Severin Field, Helen Yannakoudakis, Stephen Casper,
- Abstract要約: 本研究では,35種類の攻撃方法にまたがる10,800件のジェイルブレイク試行からなる新しいデータセットを提案する。
我々は、プロンプトトークンに対応する潜在表現を使用して、失敗したジェイルブレイクから成功したプローブを分類するように訓練する。
これは、異なるジェイルブレイク戦略が、異なる非線形、非ユニバーサルの機能を悪用していることを明らかにする。
- 参考スコア(独自算出の注目度): 8.485286811635557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Jailbreaks have been a central focus of research regarding the safety and reliability of large language models (LLMs), yet the mechanisms underlying these attacks remain poorly understood. While previous studies have predominantly relied on linear methods to detect jailbreak attempts and model refusals, we take a different approach by examining both linear and non-linear features in prompts that lead to successful jailbreaks. First, we introduce a novel dataset comprising 10,800 jailbreak attempts spanning 35 diverse attack methods. Leveraging this dataset, we train probes to classify successful from unsuccessful jailbreaks using the latent representations corresponding to prompt tokens. Notably, we find that even when probes achieve high accuracy in predicting the success of jailbreaks, their performance often fails to generalize to unseen attack methods. This reveals that different jailbreaking strategies exploit different non-linear, non-universal features. Next, we demonstrate that non-linear probes provide a powerful tool for steering model behavior. Specifically, we use these probes to guide targeted latent space perturbations, enabling us to effectively modulate the model's robustness against jailbreaks. Overall, our findings challenge the assumption that jailbreaks can be fully understood through linear or simple universal prompt features alone, highlighting the importance of a nuanced understanding of the mechanisms behind LLM vulnerabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)の安全性と信頼性に関する研究の中心は脱獄だったが、これらの攻撃のメカニズムはいまだに理解されていない。
これまでの研究は、ジェイルブレイクの試行やモデル拒絶を検出する線形手法に大きく依存していたが、我々は、ジェイルブレイクを成功させるきっかけとなる線形特徴と非線形特徴の両方を調べることによって、異なるアプローチをとっている。
まず,35種類の攻撃方法にまたがる10,800件のジェイルブレイク試行からなる新しいデータセットを提案する。
このデータセットを利用することで、プロンプトトークンに対応する潜在表現を使用して、失敗したジェイルブレイクから成功したプローブを分類するように、プローブを訓練します。
特に、調査者がジェイルブレイクの成功を予測するのに高い精度を達成したとしても、その性能は目に見えない攻撃方法に一般化できないことがよくあります。
これは、異なるジェイルブレイク戦略が、異なる非線形、非ユニバーサルの機能を悪用していることを明らかにする。
次に、非線形プローブがモデル動作を操る強力なツールであることを示す。
具体的には、これらのプローブを用いて、ターゲットとなる潜在空間の摂動を誘導し、ジェイルブレイクに対するモデルの堅牢性を効果的に調整する。
総じて,本研究は,LLM脆弱性の背後にあるメカニズムの曖昧な理解の重要性を浮き彫りにした,線形的あるいは単純な普遍的プロンプト機能だけでジェイルブレイクが完全に理解できるという仮定に挑戦する。
関連論文リスト
- Rewrite to Jailbreak: Discover Learnable and Transferable Implicit Harmfulness Instruction [32.04296423547049]
大規模言語モデル(LLM)は様々な領域に広く適用されている。
LLMを攻撃するための転送可能なブラックボックスジェイルブレイク法であるRewrite to Jailbreak (R2J)アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-16T11:43:39Z) - JailbreakLens: Interpreting Jailbreak Mechanism in the Lens of Representation and Circuit [21.380057443286034]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
脱獄攻撃は多いが、根底にあるメカニズムの理解は依然として限られている。
論文 参考訳(メタデータ) (2024-11-17T16:08:34Z) - SQL Injection Jailbreak: a structural disaster of large language models [71.55108680517422]
LLMによる入力プロンプトの構築を利用して、ユーザプロンプトにジェイルブレイク情報を注入する新しいジェイルブレイク手法を提案する。
提案手法は,AdvBench の文脈でよく知られた5つのオープンソース LLM に対する攻撃成功率を約100% 達成する。
論文 参考訳(メタデータ) (2024-11-03T13:36:34Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Knowledge-to-Jailbreak: One Knowledge Point Worth One Attack [86.6931690001357]
Knowledge-to-jailbreakは、ドメイン知識からジェイルブレイクを生成し、特定のドメイン上での大規模言語モデルの安全性を評価することを目的としている。
12,974組の知識ジェイルブレイクペアを持つ大規模データセットを収集し、ジェイルブレイクジェネレータとして大規模言語モデルを微調整する。
論文 参考訳(メタデータ) (2024-06-17T15:59:59Z) - Understanding Jailbreak Success: A Study of Latent Space Dynamics in Large Language Models [4.547063832007314]
単一のクラスからジェイルブレイクベクトルを抽出することで、他のセマンティックな異なるクラスからジェイルブレイクの有効性を緩和することができる。
有害性特徴抑制の潜在的共通メカニズムについて検討し、有効なジェイルブレイクが即時有害性に対するモデルの認識を著しく低下させる証拠を見出した。
論文 参考訳(メタデータ) (2024-06-13T16:26:47Z) - GPT-4 Jailbreaks Itself with Near-Perfect Success Using Self-Explanation [9.377563769107843]
IRIS(Iterative Refinement induced Self-Jailbreak)は,ブラックボックスアクセスのみのジェイルブレイクに対する新しいアプローチである。
以前の方法とは異なり、IRISは単一のモデルを攻撃者とターゲットの両方として使用することで、ジェイルブレイクプロセスを単純化する。
We found that IRIS jailbreak success rate of 98% on GPT-4, 92% on GPT-4 Turbo, 94% on Llama-3.1-70B in 7 query。
論文 参考訳(メタデータ) (2024-05-21T03:16:35Z) - EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。
Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。
10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文 参考訳(メタデータ) (2024-03-18T18:39:53Z) - Comprehensive Assessment of Jailbreak Attacks Against LLMs [28.58973312098698]
4つのカテゴリから13の最先端ジェイルブレイク法,16の違反カテゴリから160の質問,6つの人気のあるLDMについて検討した。
実験の結果, 最適化されたジェイルブレイクは高い攻撃成功率を確実に達成することが示された。
攻撃性能と効率のトレードオフについて論じるとともに、脱獄プロンプトの転送性は依然として維持可能であることを示す。
論文 参考訳(メタデータ) (2024-02-08T13:42:50Z) - Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts [64.60375604495883]
GPT-4Vでは,システムに侵入する脆弱性が発見された。
GPT-4を自身に対するレッド・チーム・ツールとして活用することで、盗難システムプロンプトを利用した脱獄プロンプトの可能性を探索することを目指している。
また,システムプロンプトの変更による脱獄攻撃に対する防御効果も評価した。
論文 参考訳(メタデータ) (2023-11-15T17:17:39Z) - "Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models [50.22128133926407]
我々は2022年12月から2023年12月までの1,405件の脱獄プロンプトを包括的に分析する。
131のjailbreakコミュニティを特定し,Jailbreakプロンプトの特徴とその主要な攻撃戦略を明らかにする。
また,ChatGPT (GPT-3.5) と GPT-4 の攻撃成功率 0.95 を達成できる5つの有効なジェイルブレイクプロンプトを同定した。
論文 参考訳(メタデータ) (2023-08-07T16:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。