論文の概要: RL-JACK: Reinforcement Learning-powered Black-box Jailbreaking Attack against LLMs
- arxiv url: http://arxiv.org/abs/2406.08725v1
- Date: Thu, 13 Jun 2024 01:05:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 21:47:58.730901
- Title: RL-JACK: Reinforcement Learning-powered Black-box Jailbreaking Attack against LLMs
- Title(参考訳): RL-JACK:強化学習を利用したブラックボックスの脱獄攻撃
- Authors: Xuan Chen, Yuzhou Nie, Lu Yan, Yunshu Mao, Wenbo Guo, Xiangyu Zhang,
- Abstract要約: 深部強化学習(DRL)を利用した新しいブラックボックスジェイルブレイク攻撃であるRL-JACKを提案する。
本手法は, ジェイルブレイク時のRLエージェントの学習効率を向上させるために, 一連のカスタマイズされた設計を含む。
RL-JACKは6台のSOTA LLMに対する既存のジェイルブレイク攻撃よりもはるかに効果的であることを示す。
- 参考スコア(独自算出の注目度): 14.1985036536366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern large language model (LLM) developers typically conduct a safety alignment to prevent an LLM from generating unethical or harmful content. Recent studies have discovered that the safety alignment of LLMs can be bypassed by jailbreaking prompts. These prompts are designed to create specific conversation scenarios with a harmful question embedded. Querying an LLM with such prompts can mislead the model into responding to the harmful question. The stochastic and random nature of existing genetic methods largely limits the effectiveness and efficiency of state-of-the-art (SOTA) jailbreaking attacks. In this paper, we propose RL-JACK, a novel black-box jailbreaking attack powered by deep reinforcement learning (DRL). We formulate the generation of jailbreaking prompts as a search problem and design a novel RL approach to solve it. Our method includes a series of customized designs to enhance the RL agent's learning efficiency in the jailbreaking context. Notably, we devise an LLM-facilitated action space that enables diverse action variations while constraining the overall search space. We propose a novel reward function that provides meaningful dense rewards for the agent toward achieving successful jailbreaking. Through extensive evaluations, we demonstrate that RL-JACK is overall much more effective than existing jailbreaking attacks against six SOTA LLMs, including large open-source models and commercial models. We also show the RL-JACK's resiliency against three SOTA defenses and its transferability across different models. Finally, we validate the insensitivity of RL-JACK to the variations in key hyper-parameters.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)開発者は、通常、LLMが非倫理的または有害なコンテンツを生成するのを防ぐために安全アライメントを行う。
近年の研究では、LLMの安全アライメントがジェイルブレイクのプロンプトによってバイパスされることが発見されている。
これらのプロンプトは、有害な質問を埋め込んだ特定の会話シナリオを作成するように設計されている。
そのようなプロンプトでLLMに問い合わせると、モデルが有害な質問に応答するように誤解を招く可能性がある。
既存の遺伝的手法の確率的およびランダムな性質は、最先端(SOTA)ジェイルブレイク攻撃の有効性と効率を著しく制限する。
本稿では,深層強化学習(DRL)を利用した新しいブラックボックスジェイルブレイク攻撃であるRL-JACKを提案する。
我々は、検索問題としてジェイルブレイクプロンプトの生成を定式化し、それを解決するための新しいRLアプローチを設計する。
本手法は, ジェイルブレイク時のRLエージェントの学習効率を向上させるために, 一連のカスタマイズされた設計を含む。
特に,LLM対応の行動空間を考案し,全探索空間を制約しながら多様な行動変動を可能にする。
本稿では,脱獄を成功させるために,エージェントに意味のある報酬を与える新たな報酬関数を提案する。
RL-JACKは、大規模なオープンソースモデルや商用モデルを含む6つのSOTA LLMに対して、既存のジェイルブレイク攻撃よりもはるかに効果的であることを示す。
また、3つのSOTA防御に対するRL-JACKのレジリエンスと、異なるモデル間での転送可能性を示す。
最後に,鍵パラメータの変動に対するRL-JACKの不感度を検証する。
関連論文リスト
- DROJ: A Prompt-Driven Attack against Large Language Models [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる例外的な機能を示している。
大規模なアライメント努力にもかかわらず、LLMは相変わらず敵の脱獄攻撃を受けやすいままである。
我々はDROJ(Directed Rrepresentation Optimization Jailbreak)という新しいアプローチを導入する。
論文 参考訳(メタデータ) (2024-11-14T01:48:08Z) - SQL Injection Jailbreak: a structural disaster of large language models [71.55108680517422]
LLMによる入力プロンプトの構築を利用して、ユーザプロンプトにジェイルブレイク情報を注入する新しいジェイルブレイク手法を提案する。
提案手法は,AdvBench の文脈でよく知られた5つのオープンソース LLM に対する攻撃成功率を約100% 達成する。
論文 参考訳(メタデータ) (2024-11-03T13:36:34Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - When LLM Meets DRL: Advancing Jailbreaking Efficiency via DRL-guided Search [12.76161683514808]
深部強化学習(DRL)によるブラックボックスジェイルブレイク攻撃であるRLbreakerを提案する。
RLbreakerは6つのSOTA(State-of-the-art (SOTA) LLM)に対する既存のジェイルブレイク攻撃よりも効果的であることを示す。
論文 参考訳(メタデータ) (2024-06-13T00:04:15Z) - Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing [14.094372002702476]
大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。
近年の研究では、LSMは故意に構築された敵のプロンプトに弱いことが示されている。
そこで本研究では,新しい防衛手法である textbfLayer-specific textbfEditing (LED) を提案する。
論文 参考訳(メタデータ) (2024-05-28T13:26:12Z) - Defending LLMs against Jailbreaking Attacks via Backtranslation [61.878363293735624]
「我々は、バックトランスレーションによる脱獄攻撃からLLMを守る新しい方法を提案する。」
推測されたプロンプトは、元のプロンプトの実際の意図を明らかにする傾向にある、逆転プロンプトと呼ばれる。
我々は、我々の防衛がベースラインを大幅に上回っていることを実証的に実証した。
論文 参考訳(メタデータ) (2024-02-26T10:03:33Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。