論文の概要: Quality-Diversity Red-Teaming: Automated Generation of High-Quality and Diverse Attackers for Large Language Models
- arxiv url: http://arxiv.org/abs/2506.07121v1
- Date: Sun, 08 Jun 2025 13:07:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.678887
- Title: Quality-Diversity Red-Teaming: Automated Generation of High-Quality and Diverse Attackers for Large Language Models
- Title(参考訳): 品質多様性再チーム:大規模言語モデルのための高品質および多言語アタックの自動生成
- Authors: Ren-Jian Wang, Ke Xue, Zeyu Qin, Ziniu Li, Sheng Tang, Hao-Tian Li, Shengcai Liu, Chao Qian,
- Abstract要約: 本稿では,これらの制約に対処する新しいフレームワークであるQDRTを紹介する。
QDRTは、行動条件付きトレーニングを通じて目標駆動の多様性を実現し、オープンな方法で行動リプレイバッファを実装する。
我々の経験的評価は、QDRTがより多種多様で、広範囲のLLMに対してより効果的に攻撃を発生させることを示す。
- 参考スコア(独自算出の注目度): 34.601888589730194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring safety of large language models (LLMs) is important. Red teaming--a systematic approach to identifying adversarial prompts that elicit harmful responses from target LLMs--has emerged as a crucial safety evaluation method. Within this framework, the diversity of adversarial prompts is essential for comprehensive safety assessments. We find that previous approaches to red-teaming may suffer from two key limitations. First, they often pursue diversity through simplistic metrics like word frequency or sentence embedding similarity, which may not capture meaningful variation in attack strategies. Second, the common practice of training a single attacker model restricts coverage across potential attack styles and risk categories. This paper introduces Quality-Diversity Red-Teaming (QDRT), a new framework designed to address these limitations. QDRT achieves goal-driven diversity through behavior-conditioned training and implements a behavioral replay buffer in an open-ended manner. Additionally, it trains multiple specialized attackers capable of generating high-quality attacks across diverse styles and risk categories. Our empirical evaluation demonstrates that QDRT generates attacks that are both more diverse and more effective against a wide range of target LLMs, including GPT-2, Llama-3, Gemma-2, and Qwen2.5. This work advances the field of LLM safety by providing a systematic and effective approach to automated red-teaming, ultimately supporting the responsible deployment of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の安全性を確保することが重要である。
レッド・チームリングは、標的のLSMから有害な反応を誘発する敵のプロンプトを同定する体系的なアプローチであり、重要な安全性評価手法として登場した。
この枠組みの中では、敵のプロンプトの多様性は包括的安全評価に不可欠である。
以前のレッドチームへのアプローチには,2つの重要な制限があったかも知れません。
まず、単語の頻度や文を埋め込んだ類似性といった単純な指標を通じて多様性を追求するが、これは攻撃戦略の有意義なバリエーションを捉えない可能性がある。
第2に、単一の攻撃モデルをトレーニングする一般的なプラクティスは、潜在的な攻撃スタイルやリスクカテゴリのカバレッジを制限する。
本稿では,これらの制約に対処する新しいフレームワークであるQDRTを紹介する。
QDRTは、行動条件付きトレーニングを通じて目標駆動の多様性を実現し、オープンな方法で行動リプレイバッファを実装する。
さらに、さまざまなスタイルやリスクカテゴリにわたる高品質な攻撃を発生させることのできる、複数の特殊な攻撃者を訓練する。
GPT-2, Llama-3, Gemma-2, Qwen2.5を含む多種多様なLSMに対して, QDRTはより多様かつ効果的に攻撃を発生させることを示した。
この作業は、自動化された再チームの体系的かつ効果的なアプローチを提供することによって、LLMの安全性の分野を前進させ、最終的にLLMの責任ある展開をサポートする。
関連論文リスト
- MTSA: Multi-turn Safety Alignment for LLMs through Multi-round Red-teaming [38.25556351567948]
textbfMulti-textbfTurn textbfSafety textbfAlignment (urapproach)フレームワーク。
レッドチームモデルは、敵のプロンプトを生成するために、思考誘導型マルチラウンドジェイルブレイク攻撃について学習する。
敵の反復最適化ステージ、レッドチームモデル、ターゲットモデルは、相互作用におけるそれぞれの能力を継続的に改善します。
論文 参考訳(メタデータ) (2025-05-22T08:22:57Z) - Strategize Globally, Adapt Locally: A Multi-Turn Red Teaming Agent with Dual-Level Learning [39.931442440365444]
AlgNameは、補完的な学習次元を通じて高度な人間の攻撃者をエミュレートする、新しい赤チームエージェントである。
AlgNameは、エージェントが新しいジェイルブレイク戦術を特定し、ゴールベースの戦術選択フレームワークを開発し、選択した戦術の迅速な定式化を洗練できるようにする。
JailbreakBenchに関する実証的な評価は、我々のフレームワークの優れた性能を示し、GPT-3.5-Turbo と Llama-3.1-70B に対する攻撃成功率の90%以上を、5つの会話ターンで達成した。
論文 参考訳(メタデータ) (2025-04-02T01:06:19Z) - Diverse and Effective Red Teaming with Auto-generated Rewards and Multi-step Reinforcement Learning [7.670515615413488]
我々は、自動化されたレッドチーム化によって、多種多様な、そして成功した攻撃を生成できる方法を提供する。
本手法は,(1)多様な攻撃目標を自動生成する手法と,(2)これらの目標を効果的に攻撃する手法の2つのステップに分解する。
論文 参考訳(メタデータ) (2024-12-24T22:38:46Z) - Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。
PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。
PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-01T23:25:30Z) - DiveR-CT: Diversity-enhanced Red Teaming Large Language Model Assistants with Relaxing Constraints [68.82294911302579]
DiveR-CTを導入し、目的と意味の報酬に対する従来の制約を緩和し、多様性を高める政策により大きな自由を与える。
実験では,1)様々な攻撃成功率の多様な多様性指標において優れたデータを生成すること,2)収集したデータに基づく安全性チューニングによる青チームモデルのレジリエンスの向上,3)信頼性と制御可能な攻撃成功率に対する目標重みの動的制御,3)報酬過大化に対する感受性の低下など,ベースラインよりも優れたDiveR-CTの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2024-05-29T12:12:09Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - Downlink Power Allocation in Massive MIMO via Deep Learning: Adversarial
Attacks and Training [62.77129284830945]
本稿では,無線環境における回帰問題を考察し,敵攻撃がDLベースのアプローチを損なう可能性があることを示す。
また,攻撃に対するDLベースの無線システムの堅牢性が著しく向上することを示す。
論文 参考訳(メタデータ) (2022-06-14T04:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。