論文の概要: Diverse and Effective Red Teaming with Auto-generated Rewards and Multi-step Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2412.18693v1
- Date: Tue, 24 Dec 2024 22:38:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:29:29.714485
- Title: Diverse and Effective Red Teaming with Auto-generated Rewards and Multi-step Reinforcement Learning
- Title(参考訳): 自己生成リワードと多段階強化学習による多元的・効果的なレッドチーム
- Authors: Alex Beutel, Kai Xiao, Johannes Heidecke, Lilian Weng,
- Abstract要約: 我々は、自動化されたレッドチーム化によって、多種多様な、そして成功した攻撃を生成できる方法を提供する。
本手法は,(1)多様な攻撃目標を自動生成する手法と,(2)これらの目標を効果的に攻撃する手法の2つのステップに分解する。
- 参考スコア(独自算出の注目度): 7.670515615413488
- License:
- Abstract: Automated red teaming can discover rare model failures and generate challenging examples that can be used for training or evaluation. However, a core challenge in automated red teaming is ensuring that the attacks are both diverse and effective. Prior methods typically succeed in optimizing either for diversity or for effectiveness, but rarely both. In this paper, we provide methods that enable automated red teaming to generate a large number of diverse and successful attacks. Our approach decomposes the task into two steps: (1) automated methods for generating diverse attack goals and (2) generating effective attacks for those goals. While we provide multiple straightforward methods for generating diverse goals, our key contributions are to train an RL attacker that both follows those goals and generates diverse attacks for those goals. First, we demonstrate that it is easy to use a large language model (LLM) to generate diverse attacker goals with per-goal prompts and rewards, including rule-based rewards (RBRs) to grade whether the attacks are successful for the particular goal. Second, we demonstrate how training the attacker model with multi-step RL, where the model is rewarded for generating attacks that are different from past attempts further increases diversity while remaining effective. We use our approach to generate both prompt injection attacks and prompts that elicit unsafe responses. In both cases, we find that our approach is able to generate highly-effective and considerably more diverse attacks than past general red-teaming approaches.
- Abstract(参考訳): 自動化されたレッドチームでは、希少なモデル障害を発見し、トレーニングや評価に使用できる挑戦的な例を生成することができる。
しかしながら、自動化されたレッドチームにおける中核的な課題は、攻撃が多様かつ効果的であることを保証することである。
従来の手法は一般的に多様性か有効性のために最適化に成功するが、両方を最適化することは滅多にない。
本稿では,自動レッドチーム化によって多種多様な攻撃を発生させる手法を提案する。
本手法は,(1)多様な攻撃目標を自動生成する手法と,(2)これらの目標を効果的に攻撃する手法の2つのステップに分解する。
多様な目標を生成するための複数の簡単な方法を提供していますが、重要な貢献はRL攻撃者を訓練し、その目標を追従し、それらの目標に対して多様な攻撃を生成することです。
まず、大言語モデル(LLM)を用いて、ゴールごとのプロンプトと報酬で多様な攻撃目標を生成できることを示し、特定の目標に対して攻撃が成功したかどうかを判断するルールベース報酬(RBR)を含む。
第2に,複数ステップのRLを用いて攻撃モデルをトレーニングし,過去の試みと異なる攻撃を発生させることでモデルに報奨を与える方法を示す。
当社のアプローチでは、インジェクションのインジェクション攻撃と、安全でない応答を誘発するプロンプトの両方を生成する。
どちらの場合も、我々のアプローチは、過去の一般的なレッドチームのアプローチよりも、非常に効果的で、かなり多様な攻撃を発生させることができる。
関連論文リスト
- Target-driven Attack for Large Language Models [14.784132523066567]
クリーンテキストと攻撃テキストの条件付き確率のKL差を最大化するターゲット駆動型ブラックボックス攻撃法を提案する。
複数の大規模言語モデルとデータセットの実験結果から,攻撃手法の有効性が示された。
論文 参考訳(メタデータ) (2024-11-09T15:59:59Z) - Derail Yourself: Multi-turn LLM Jailbreak Attack through Self-discovered Clues [88.96201324719205]
本研究では,マルチターンインタラクションにおけるLarge Language Models(LLM)の安全性の脆弱性を明らかにする。
本稿ではアクターネットワーク理論に触発された新しいマルチターン攻撃手法であるActorAttackを紹介する。
論文 参考訳(メタデータ) (2024-10-14T16:41:49Z) - Holistic Automated Red Teaming for Large Language Models through Top-Down Test Case Generation and Multi-turn Interaction [24.499874512829198]
本研究では, 対角的, きめ細かなリスク分類に基づいて, テストケースの多様性を拡大する自動紅茶造法を提案する。
提案手法は,新しい微調整戦略と強化学習技術を活用し,人的手法で多ターン探索を容易にする。
論文 参考訳(メタデータ) (2024-09-25T09:44:48Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Multi-granular Adversarial Attacks against Black-box Neural Ranking Models [111.58315434849047]
多粒性摂動を取り入れた高品質な逆数例を作成する。
我々は,多粒体攻撃を逐次的意思決定プロセスに変換する。
本手法は,攻撃の有効性と非受容性の両方において,一般的なベースラインを超えている。
論文 参考訳(メタデータ) (2024-04-02T02:08:29Z) - LAS-AT: Adversarial Training with Learnable Attack Strategy [82.88724890186094]
LAS-ATと呼ばれる「学習可能な攻撃戦略」は、モデル堅牢性を改善するための攻撃戦略を自動生成することを学ぶ。
当社のフレームワークは,強靭性向上のためのトレーニングにAEを使用するターゲットネットワークと,AE生成を制御するための攻撃戦略を生成する戦略ネットワークで構成されている。
論文 参考訳(メタデータ) (2022-03-13T10:21:26Z) - It Takes Four to Tango: Multiagent Selfplay for Automatic Curriculum
Generation [107.10235120286352]
汎用強化学習エージェントを効率的に訓練するには、ゴールカリキュラムの自動生成が必要である。
自動ゴール生成フレームワークCuSPを提案する。
本手法は,様々な制御タスクに対して,効率的な目標のカリキュラムを生成するのに有効であることを示す。
論文 参考訳(メタデータ) (2022-02-22T01:23:23Z) - MUTEN: Boosting Gradient-Based Adversarial Attacks via Mutant-Based
Ensembles [16.424441015545252]
MUTENは、勾配マスキングモデルに対するよく知られた攻撃の成功率を改善するための低コストな手法である。
MUTENは4回の攻撃の成功率を最大0.45まで向上させることができる。
論文 参考訳(メタデータ) (2021-09-27T07:15:01Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。