Fugu-MT 論文翻訳(概要): When LLM Meets DRL: Advancing Jailbreaking Efficiency via DRL-guided Search

論文の概要: When LLM Meets DRL: Advancing Jailbreaking Efficiency via DRL-guided Search

arxiv url: http://arxiv.org/abs/2406.08705v3
Date: Wed, 18 Dec 2024 03:25:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-19 16:46:51.822449
Title: When LLM Meets DRL: Advancing Jailbreaking Efficiency via DRL-guided Search
Title（参考訳）: LLMがDRLと出会う: DRL誘導検索による脱獄効率の向上
Authors: Xuan Chen, Yuzhou Nie, Wenbo Guo, Xiangyu Zhang,
Abstract要約: 深部強化学習(DRL)によるブラックボックスジェイルブレイク攻撃であるRLbreakerを提案する。 RLbreakerは6つのSOTA(State-of-the-art (SOTA) LLM)に対する既存のジェイルブレイク攻撃よりも効果的であることを示す。
参考スコア（独自算出の注目度）: 12.76161683514808
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent studies developed jailbreaking attacks, which construct jailbreaking prompts to fool LLMs into responding to harmful questions. Early-stage jailbreaking attacks require access to model internals or significant human efforts. More advanced attacks utilize genetic algorithms for automatic and black-box attacks. However, the random nature of genetic algorithms significantly limits the effectiveness of these attacks. In this paper, we propose RLbreaker, a black-box jailbreaking attack driven by deep reinforcement learning (DRL). We model jailbreaking as a search problem and design an RL agent to guide the search, which is more effective and has less randomness than stochastic search, such as genetic algorithms. Specifically, we design a customized DRL system for the jailbreaking problem, including a novel reward function and a customized proximal policy optimization (PPO) algorithm. Through extensive experiments, we demonstrate that RLbreaker is much more effective than existing jailbreaking attacks against six state-of-the-art (SOTA) LLMs. We also show that RLbreaker is robust against three SOTA defenses and its trained agents can transfer across different LLMs. We further validate the key design choices of RLbreaker via a comprehensive ablation study.
Abstract（参考訳）: 近年の研究では、悪質な質問に答えるためにLLMを騙すためのジェイルブレーキングのプロンプトを構築するジェイルブレーキング攻撃が開発されている。初期のジェイルブレイク攻撃は、モデル内部や重要な人間の努力へのアクセスを必要とする。より高度な攻撃は、自動攻撃とブラックボックス攻撃に遺伝的アルゴリズムを利用する。しかし、遺伝的アルゴリズムのランダムな性質はこれらの攻撃の有効性を著しく制限する。本稿では,深層強化学習(DRL)によるブラックボックスジェイルブレイク攻撃であるRLbreakerを提案する。我々は、ジェイルブレイクを探索問題としてモデル化し、遺伝的アルゴリズムのような確率探索よりも効率的でランダム性の低いRLエージェントを設計する。具体的には、新しい報酬関数とPPOアルゴリズムを含む、ジェイルブレイク問題のためのカスタマイズDRLシステムを設計する。広範な実験により、RLbreakerは6つのSOTA(State-of-the-art (SOTA) LLMに対する既存のジェイルブレーカー攻撃よりもはるかに効果的であることを示した。また、RLbreakerは3つのSOTA防御に対して堅牢であり、その訓練されたエージェントは異なるLLM間で移動可能であることを示す。我々はRLbreakerの重要な設計選択を包括的アブレーション研究により検証する。

関連論文リスト

TooBadRL: Trigger Optimization to Boost Effectiveness of Backdoor Attacks on Deep Reinforcement Learning [38.79063331759597]
TooBadRLは、DRLバックドアトリガーを3つの臨界軸(時間、空間、大きさ)に沿って体系的に最適化するフレームワークである。 TooBadRLは,通常のタスク性能の低下を最小限に抑えつつ,攻撃成功率を大幅に向上することを示す。
論文参考訳（メタデータ） (2025-06-11T09:50:17Z)
Geneshift: Impact of different scenario shift on Jailbreaking LLM [55.26229741296822]
我々は、遺伝的アルゴリズムを用いてシナリオシフトを最適化し、GeneShiftと呼ばれるブラックボックスジェイルブレイク攻撃を提案する。 GeneShiftはJailbreakの成功率を0%から60%に向上させるが、直接のプロンプトだけでは失敗する。
論文参考訳（メタデータ） (2025-04-10T20:02:35Z)
On the Emergence of Thinking in LLMs I: Searching for the Right Intuition [34.32871896067864]
自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。 RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。数学領域における実証的研究は、RLSPが推論を改善することを示している。
論文参考訳（メタデータ） (2025-02-10T18:52:04Z)
xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文参考訳（メタデータ） (2025-01-28T06:07:58Z)
LLM-Virus: Evolutionary Jailbreak Attack on Large Language Models [59.29840790102413]
既存のジェイルブレイク攻撃は主に不透明な最適化手法と勾配探索法に基づいている。進化的ジェイルブレイクと呼ばれる進化的アルゴリズムに基づくジェイルブレイク攻撃手法であるLSM-Virusを提案する。この結果から, LLM-Virus は既存の攻撃手法と比較して, 競争力や性能に優れていたことが示唆された。
論文参考訳（メタデータ） (2024-12-28T07:48:57Z)
Figure it Out: Analyzing-based Jailbreak Attack on Large Language Models [21.252514293436437]
大規模言語モデル(LLM)に対するジェイルブレイク攻撃に対する分析ベースジェイルブレイク(ABJ)を提案する。 ABJはGPT-4-turbo-0409上で94.8%の攻撃成功率(ASR)と1.06の攻撃効率(AE)を達成する。
論文参考訳（メタデータ） (2024-07-23T06:14:41Z)
RL-JACK: Reinforcement Learning-powered Black-box Jailbreaking Attack against LLMs [14.1985036536366]
深部強化学習(DRL)を利用した新しいブラックボックスジェイルブレイク攻撃であるRL-JACKを提案する。本手法は, ジェイルブレイク時のRLエージェントの学習効率を向上させるために, 一連のカスタマイズされた設計を含む。 RL-JACKは6台のSOTA LLMに対する既存のジェイルブレイク攻撃よりもはるかに効果的であることを示す。
論文参考訳（メタデータ） (2024-06-13T01:05:22Z)
LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence [68.27280750612204]
最近のエンボディエージェントは、主に強化学習(RL)または大規模言語モデル(LLM)に基づいて構築されている。本研究では, 提案したレフェリーRLを, 開発した大規模自己回帰モデル(LARM)上で実施することにより, 欠点を回避しつつ, それらの利点を組み合わせる。具体的には、LARMは軽量なLLM(5Bパラメータよりも小さい)上に構築され、テキストではなく次のアクションを直接出力する。
論文参考訳（メタデータ） (2024-05-27T17:59:32Z)
ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-02-29T18:45:56Z)
Foot In The Door: Understanding Large Language Model Jailbreaking via Cognitive Psychology [12.584928288798658]
本研究では,大規模言語モデル(LLM)の内在的意思決定論理に関する心理学的視点を構築する。フットイン・ザ・ドア(FITD)技術に基づく自動ブラックボックスジェイルブレイク手法を提案する。
論文参考訳（メタデータ） (2024-02-24T02:27:55Z)
Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。既存のジェイルブレイク法は計算コストがかかる。我々は、弱々しく強固な脱獄攻撃を提案する。
論文参考訳（メタデータ） (2024-01-30T18:48:37Z)
Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文参考訳（メタデータ） (2024-01-11T17:58:41Z)
Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。 LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-12T15:38:28Z)
Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。本研究では, MRL の頑健な目標を制御レベルで定義する。ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文参考訳（メタデータ） (2023-01-26T14:54:39Z)
BAFFLE: Hiding Backdoors in Offline Reinforcement Learning Datasets [31.122826345966065]
強化学習(Reinforcement Learning、RL)は、環境との相互作用中に収集された試行錯誤経験からエージェントに学習させる。近年、オフラインRLは環境との相互作用を省くため、人気のあるRLパラダイムとなっている。本稿では,データ(観測値)に摂動を加えるバックドアアタックに焦点を当てる。オフラインのRLデータセットを汚染することにより、バックドアをRLエージェントに自動的に注入するアプローチであるBaffleを提案する。
論文参考訳（メタデータ） (2022-10-07T07:56:17Z)
Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文参考訳（メタデータ） (2021-06-14T18:48:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。