論文の概要: Ruby Teaming: Improving Quality Diversity Search with Memory for Automated Red Teaming
- arxiv url: http://arxiv.org/abs/2406.11654v1
- Date: Mon, 17 Jun 2024 15:36:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 14:03:05.489486
- Title: Ruby Teaming: Improving Quality Diversity Search with Memory for Automated Red Teaming
- Title(参考訳): Rubyチーム: 自動化されたレッドチームのためのメモリによる品質多様性検索の改善
- Authors: Vernon Toh Yan Han, Rishabh Bhardwaj, Soujanya Poria,
- Abstract要約: Ruby TeamingはRainbow Teamingを改善し、メモリキャッシュをその3次元に含めている。
メモリ次元は、より良い品質のプロンプトを得るためにミューテータに手がかりを提供する。
Rubyのチームリングは、Shannon's Evenness Index(SEI)とSimpson's Diversity Index(SEI)で、Rainbow Teamingの6%と3%を上回った
- 参考スコア(独自算出の注目度): 24.270321913746233
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose Ruby Teaming, a method that improves on Rainbow Teaming by including a memory cache as its third dimension. The memory dimension provides cues to the mutator to yield better-quality prompts, both in terms of attack success rate (ASR) and quality diversity. The prompt archive generated by Ruby Teaming has an ASR of 74%, which is 20% higher than the baseline. In terms of quality diversity, Ruby Teaming outperforms Rainbow Teaming by 6% and 3% on Shannon's Evenness Index (SEI) and Simpson's Diversity Index (SDI), respectively.
- Abstract(参考訳): 我々は、メモリキャッシュをその3次元に含め、レインボーチームを改善する方法であるRuby Teamingを提案する。
メモリ次元は、攻撃成功率(ASR)と品質の多様性の両方において、より良い品質のプロンプトを得るためにミュータタに手がかりを提供する。
Ruby Teamingが生成したプロンプトアーカイブのASRは74%で、ベースラインよりも20%高い。
品質の多様性に関して、Ruby TeamingはShannon's Evenness Index(SEI)とSimpson's Diversity Index(SDI)で、Rainbow Teamingの6%と3%を上回っている。
関連論文リスト
- Ferret: Faster and Effective Automated Red Teaming with Reward-Based Scoring Technique [22.2168585464366]
FerretはRainbow Teamingをベースにした新しいアプローチである。
フェレットは総合攻撃成功率(ASR)を95%に改善し、レインボーチームよりも46%高い。
論文 参考訳(メタデータ) (2024-08-20T09:58:01Z) - DiveR-CT: Diversity-enhanced Red Teaming with Relaxing Constraints [68.82294911302579]
DiveR-CTを導入し、目的と意味の報酬に対する従来の制約を緩和し、多様性を高める政策により大きな自由を与える。
実験では,1)様々な攻撃成功率の多様な多様性指標において優れたデータを生成すること,2)収集したデータに基づく安全性チューニングによる青チームモデルのレジリエンスの向上,3)信頼性と制御可能な攻撃成功率に対する目標重みの動的制御,3)報酬過大化に対する感受性の低下など,ベースラインよりも優れたDiveR-CTの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2024-05-29T12:12:09Z) - Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。
本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。
この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
論文 参考訳(メタデータ) (2024-05-28T06:10:12Z) - Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts [57.49685172971446]
敵のプロンプトを多種多様に集めるための新しいブラックボックスアプローチであるレインボー・ブッキングを紹介する。
提案手法では, 攻撃成功率が90%を超え, 効果的に対抗できるプロンプトが何百もあることが明らかとなった。
さらに、質問応答とサイバーセキュリティに適用することで、レインボーチーム(Rainbow Teaming)の汎用性についても検討する。
論文 参考訳(メタデータ) (2024-02-26T18:47:27Z) - HarmBench: A Standardized Evaluation Framework for Automated Red Teaming
and Robust Refusal [47.40508941209001]
HarmBenchは、自動化されたレッドチームのための標準化された評価フレームワークである。
我々は18のレッドチーム法と33のLLMとディフェンスを大規模に比較した。
また,多岐にわたる攻撃に対する堅牢性を大幅に向上させる,高効率な対人訓練手法も導入する。
論文 参考訳(メタデータ) (2024-02-06T18:59:08Z) - Defending Large Language Models Against Jailbreaking Attacks Through Goal Prioritization [98.18718484152595]
本研究は,学習段階と推論段階の両方において,目標の優先順位付けを統合することで,支援と安全性の確保という目標との本質的な対立に対処することを提案する。
我々の研究は、脱獄攻撃と防衛の理解に寄与し、LLMの能力と安全性の関係に光を当てている。
論文 参考訳(メタデータ) (2023-11-15T16:42:29Z) - Evolving Diverse Red-team Language Models in Multi-round Multi-agent Games [11.873513881458747]
Redチームは、Large Language Model(LLM)を攻撃して脆弱性を特定できる。
現在の取り組みは、単一ラウンドのプロンプト設計と、固定ブルーチームに対する一方的なレッドチームの最適化に大きく依存しています。
ここでは、レッドチームとブルーチーム間のマルチラウンド攻撃的および防御的相互作用を分析するために、動的レッドチームゲーム(RTG)を紹介します。
論文 参考訳(メタデータ) (2023-09-30T09:35:50Z) - Forming Diverse Teams from Sequentially Arriving People [9.247294820004146]
共同作業は、チームや組織が異質なメンバを持つことの恩恵を受けます。
我々は、時間とともに連続して到着する人々から、このような多様なチームを形成する方法を提案する。
実際に、アルゴリズムがチームの多様性を大きく向上させることを示す。
論文 参考訳(メタデータ) (2020-02-25T07:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。