論文の概要: Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts
- arxiv url: http://arxiv.org/abs/2402.16822v3
- Date: Wed, 11 Dec 2024 18:07:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:00:25.620356
- Title: Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts
- Title(参考訳): レインボー・ボウリング:多角形逆転プロンプトのオープンエンド世代
- Authors: Mikayel Samvelyan, Sharath Chandra Raparthy, Andrei Lupu, Eric Hambro, Aram H. Markosyan, Manish Bhatt, Yuning Mao, Minqi Jiang, Jack Parker-Holder, Jakob Foerster, Tim Rocktäschel, Roberta Raileanu,
- Abstract要約: 敵のプロンプトを多種多様に集めるための新しいブラックボックスアプローチであるレインボー・ブッキングを紹介する。
提案手法では, 攻撃成功率が90%を超え, 効果的に対抗できるプロンプトが何百もあることが明らかとなった。
さらに、質問応答とサイバーセキュリティに適用することで、レインボーチーム(Rainbow Teaming)の汎用性についても検討する。
- 参考スコア(独自算出の注目度): 57.49685172971446
- License:
- Abstract: As large language models (LLMs) become increasingly prevalent across many real-world applications, understanding and enhancing their robustness to adversarial attacks is of paramount importance. Existing methods for identifying adversarial prompts tend to focus on specific domains, lack diversity, or require extensive human annotations. To address these limitations, we present Rainbow Teaming, a novel black-box approach for producing a diverse collection of adversarial prompts. Rainbow Teaming casts adversarial prompt generation as a quality-diversity problem and uses open-ended search to generate prompts that are both effective and diverse. Focusing on the safety domain, we use Rainbow Teaming to target various state-of-the-art LLMs, including the Llama 2 and Llama 3 models. Our approach reveals hundreds of effective adversarial prompts, with an attack success rate exceeding 90% across all tested models. Furthermore, we demonstrate that prompts generated by Rainbow Teaming are highly transferable and that fine-tuning models with synthetic data generated by our method significantly enhances their safety without sacrificing general performance or helpfulness. We additionally explore the versatility of Rainbow Teaming by applying it to question answering and cybersecurity, showcasing its potential to drive robust open-ended self-improvement in a wide range of applications.
- Abstract(参考訳): 大規模言語モデル(LLM)が現実世界の多くのアプリケーションで普及するにつれて、敵攻撃に対する堅牢性を理解し、強化することが最重要視される。
既存の敵のプロンプトを特定する方法は、特定のドメインに焦点を当てたり、多様性を欠いたり、広範囲の人間のアノテーションを必要とする傾向がある。
このような制約に対処するために、様々な敵のプロンプトを生産するための新しいブラックボックスアプローチであるレインボー・チーム(Rainbow Teaming)を提案する。
Rainbow Teamingは、品質多様性の問題として敵のプロンプト生成をキャストし、オープンな検索を使用して、効果的かつ多様なプロンプトを生成する。
安全領域に着目して、私たちはRainbow Teamingを使用して、Llama 2やLlama 3など、最先端のLLMをターゲットにしています。
提案手法では, 攻撃成功率は全試験モデルで90%を超え, 効果的に対戦するプロンプトが数百あることが明らかとなった。
さらに,Rainbow Teamingが生成するプロンプトは高い伝達性を示し,本手法により生成した合成データを用いた微調整モデルでは,汎用性能や有用性を犠牲にすることなく安全性を著しく向上することを示した。
また、Rainbow Teamingを質問応答やサイバーセキュリティに適用することで、幅広いアプリケーションにおいて堅牢なオープンな自己改善を促進する可能性を示すことで、その汎用性についても検討する。
関連論文リスト
- Ferret: Faster and Effective Automated Red Teaming with Reward-Based Scoring Technique [22.2168585464366]
FerretはRainbow Teamingをベースにした新しいアプローチである。
フェレットは総合攻撃成功率(ASR)を95%に改善し、レインボーチームよりも46%高い。
論文 参考訳(メタデータ) (2024-08-20T09:58:01Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Against The Achilles' Heel: A Survey on Red Teaming for Generative Models [60.21722603260243]
120以上の論文を調査し,言語モデル固有の能力に根ざした,きめ細かい攻撃戦略の分類を導入した。
我々は、様々な自動レッドチーム化アプローチを統合するために、"searcher"フレームワークを開発した。
論文 参考訳(メタデータ) (2024-03-31T09:50:39Z) - An Open-World, Diverse, Cross-Spatial-Temporal Benchmark for Dynamic Wild Person Re-Identification [58.5877965612088]
人物再識別(ReID)は、データ駆動のディープラーニング技術のおかげで大きな進歩を遂げました。
既存のベンチマークデータセットには多様性がなく、これらのデータに基づいてトレーニングされたモデルは、動的なワイルドシナリオに対してうまく一般化できない。
OWDと呼ばれる新しいOpen-World, Diverse, Cross-Spatial-Temporalデータセットを開発した。
論文 参考訳(メタデータ) (2024-03-22T11:21:51Z) - Multi-Agent Diagnostics for Robustness via Illuminated Diversity [37.38316542660311]
発光ダイバーシティ(MADRID)によるロバストネスのマルチエージェント診断法を提案する。
MADRIDは、事前訓練されたマルチエージェントポリシーの戦略的脆弱性を明らかにする様々な敵シナリオを生成する。
我々は,Google Research Footballの11vs11バージョンにおけるMADRIDの有効性を評価する。
論文 参考訳(メタデータ) (2024-01-24T14:02:09Z) - Adversarial Prompt Tuning for Vision-Language Models [86.5543597406173]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における画像エンコーダの対向ロバスト性を高める技術である。
我々は,AdvPTが白箱攻撃や黒箱攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで相乗効果を示すことを示した。
論文 参考訳(メタデータ) (2023-11-19T07:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。