論文の概要: When LLM Meets DRL: Advancing Jailbreaking Efficiency via DRL-guided Search
- arxiv url: http://arxiv.org/abs/2406.08705v3
- Date: Wed, 18 Dec 2024 03:25:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:22:42.940902
- Title: When LLM Meets DRL: Advancing Jailbreaking Efficiency via DRL-guided Search
- Title(参考訳): LLMがDRLと出会う: DRL誘導検索による脱獄効率の向上
- Authors: Xuan Chen, Yuzhou Nie, Wenbo Guo, Xiangyu Zhang,
- Abstract要約: 深部強化学習(DRL)によるブラックボックスジェイルブレイク攻撃であるRLbreakerを提案する。
RLbreakerは6つのSOTA(State-of-the-art (SOTA) LLM)に対する既存のジェイルブレイク攻撃よりも効果的であることを示す。
- 参考スコア(独自算出の注目度): 12.76161683514808
- License:
- Abstract: Recent studies developed jailbreaking attacks, which construct jailbreaking prompts to fool LLMs into responding to harmful questions. Early-stage jailbreaking attacks require access to model internals or significant human efforts. More advanced attacks utilize genetic algorithms for automatic and black-box attacks. However, the random nature of genetic algorithms significantly limits the effectiveness of these attacks. In this paper, we propose RLbreaker, a black-box jailbreaking attack driven by deep reinforcement learning (DRL). We model jailbreaking as a search problem and design an RL agent to guide the search, which is more effective and has less randomness than stochastic search, such as genetic algorithms. Specifically, we design a customized DRL system for the jailbreaking problem, including a novel reward function and a customized proximal policy optimization (PPO) algorithm. Through extensive experiments, we demonstrate that RLbreaker is much more effective than existing jailbreaking attacks against six state-of-the-art (SOTA) LLMs. We also show that RLbreaker is robust against three SOTA defenses and its trained agents can transfer across different LLMs. We further validate the key design choices of RLbreaker via a comprehensive ablation study.
- Abstract(参考訳): 近年の研究では、悪質な質問に答えるためにLLMを騙すためのジェイルブレーキングのプロンプトを構築するジェイルブレーキング攻撃が開発されている。
初期のジェイルブレイク攻撃は、モデル内部や重要な人間の努力へのアクセスを必要とする。
より高度な攻撃は、自動攻撃とブラックボックス攻撃に遺伝的アルゴリズムを利用する。
しかし、遺伝的アルゴリズムのランダムな性質はこれらの攻撃の有効性を著しく制限する。
本稿では,深層強化学習(DRL)によるブラックボックスジェイルブレイク攻撃であるRLbreakerを提案する。
我々は、ジェイルブレイクを探索問題としてモデル化し、遺伝的アルゴリズムのような確率探索よりも効率的でランダム性の低いRLエージェントを設計する。
具体的には、新しい報酬関数とPPOアルゴリズムを含む、ジェイルブレイク問題のためのカスタマイズDRLシステムを設計する。
広範な実験により、RLbreakerは6つのSOTA(State-of-the-art (SOTA) LLMに対する既存のジェイルブレーカー攻撃よりもはるかに効果的であることを示した。
また、RLbreakerは3つのSOTA防御に対して堅牢であり、その訓練されたエージェントは異なるLLM間で移動可能であることを示す。
我々はRLbreakerの重要な設計選択を包括的アブレーション研究により検証する。
関連論文リスト
- Figure it Out: Analyzing-based Jailbreak Attack on Large Language Models [21.252514293436437]
大規模言語モデル(LLM)に対するジェイルブレイク攻撃に対する分析ベースジェイルブレイク(ABJ)を提案する。
ABJはGPT-4-turbo-0409上で94.8%の攻撃成功率(ASR)と1.06の攻撃効率(AE)を達成する。
論文 参考訳(メタデータ) (2024-07-23T06:14:41Z) - RL-JACK: Reinforcement Learning-powered Black-box Jailbreaking Attack against LLMs [14.1985036536366]
深部強化学習(DRL)を利用した新しいブラックボックスジェイルブレイク攻撃であるRL-JACKを提案する。
本手法は, ジェイルブレイク時のRLエージェントの学習効率を向上させるために, 一連のカスタマイズされた設計を含む。
RL-JACKは6台のSOTA LLMに対する既存のジェイルブレイク攻撃よりもはるかに効果的であることを示す。
論文 参考訳(メタデータ) (2024-06-13T01:05:22Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - Foot In The Door: Understanding Large Language Model Jailbreaking via
Cognitive Psychology [12.584928288798658]
本研究では,大規模言語モデル(LLM)の内在的意思決定論理に関する心理学的視点を構築する。
フットイン・ザ・ドア(FITD)技術に基づく自動ブラックボックスジェイルブレイク手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T02:27:55Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - BAFFLE: Hiding Backdoors in Offline Reinforcement Learning Datasets [31.122826345966065]
強化学習(Reinforcement Learning、RL)は、環境との相互作用中に収集された試行錯誤経験からエージェントに学習させる。
近年、オフラインRLは環境との相互作用を省くため、人気のあるRLパラダイムとなっている。
本稿では,データ(観測値)に摂動を加えるバックドアアタックに焦点を当てる。
オフラインのRLデータセットを汚染することにより、バックドアをRLエージェントに自動的に注入するアプローチであるBaffleを提案する。
論文 参考訳(メタデータ) (2022-10-07T07:56:17Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。