論文の概要: Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts
- arxiv url: http://arxiv.org/abs/2402.16822v1
- Date: Mon, 26 Feb 2024 18:47:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 19:29:42.862119
- Title: Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts
- Title(参考訳): rainbow teaming: さまざまな敵のプロンプトのオープンな世代
- Authors: Mikayel Samvelyan, Sharath Chandra Raparthy, Andrei Lupu, Eric Hambro,
Aram H. Markosyan, Manish Bhatt, Yuning Mao, Minqi Jiang, Jack Parker-Holder,
Jakob Foerster, Tim Rockt\"aschel, Roberta Raileanu
- Abstract要約: 我々は、様々な敵のプロンプトを生産するための新しいアプローチであるレインボー・ブッキングを提示する。
この論文では、安全性、質問応答、サイバーセキュリティなど、幅広い領域にわたるモデルの脆弱性を明らかにすることができる。
- 参考スコア(独自算出の注目度): 48.84371867045439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) become increasingly prevalent across many
real-world applications, understanding and enhancing their robustness to user
inputs is of paramount importance. Existing methods for identifying adversarial
prompts tend to focus on specific domains, lack diversity, or require extensive
human annotations. To address these limitations, we present Rainbow Teaming, a
novel approach for producing a diverse collection of adversarial prompts.
Rainbow Teaming casts adversarial prompt generation as a quality-diversity
problem, and uses open-ended search to generate prompts that are both effective
and diverse. It can uncover a model's vulnerabilities across a broad range of
domains including, in this paper, safety, question answering, and
cybersecurity. We also demonstrate that fine-tuning on synthetic data generated
by Rainbow Teaming improves the safety of state-of-the-art LLMs without hurting
their general capabilities and helpfulness, paving the path to open-ended
self-improvement.
- Abstract(参考訳): 大規模言語モデル(llm)が多くの現実のアプリケーションで普及するにつれ、ユーザ入力に対するロバスト性の理解と強化が重要になっている。
敵のプロンプトを特定する既存の方法は、特定のドメイン、多様性の欠如、あるいは広範な人間のアノテーションを必要とする傾向がある。
このような制約に対処するため、様々な敵のプロンプトを生産するための新しいアプローチであるレインボー・チーム(Rainbow Teaming)を提案する。
Rainbow Teamingは、品質多様性の問題として敵のプロンプト生成をキャストし、オープンな検索を使用して、効果的かつ多様なプロンプトを生成する。
この論文では、安全、質問応答、サイバーセキュリティなど、幅広いドメインにわたるモデルの脆弱性を明らかにすることができる。
また,Rainbow Teamingが生成した合成データの微調整により,汎用性と有用性を損なうことなく,最先端のLCMの安全性が向上し,オープンエンド自己改善への道が拓かれることを示した。
関連論文リスト
- Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Ferret: Faster and Effective Automated Red Teaming with Reward-Based Scoring Technique [22.2168585464366]
FerretはRainbow Teamingをベースにした新しいアプローチである。
フェレットは総合攻撃成功率(ASR)を95%に改善し、レインボーチームよりも46%高い。
論文 参考訳(メタデータ) (2024-08-20T09:58:01Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Against The Achilles' Heel: A Survey on Red Teaming for Generative Models [60.21722603260243]
120以上の論文を調査し,言語モデル固有の能力に根ざした,きめ細かい攻撃戦略の分類を導入した。
我々は、様々な自動レッドチーム化アプローチを統合するために、"searcher"フレームワークを開発した。
論文 参考訳(メタデータ) (2024-03-31T09:50:39Z) - An Open-World, Diverse, Cross-Spatial-Temporal Benchmark for Dynamic Wild Person Re-Identification [58.5877965612088]
人物再識別(ReID)は、データ駆動のディープラーニング技術のおかげで大きな進歩を遂げました。
既存のベンチマークデータセットには多様性がなく、これらのデータに基づいてトレーニングされたモデルは、動的なワイルドシナリオに対してうまく一般化できない。
OWDと呼ばれる新しいOpen-World, Diverse, Cross-Spatial-Temporalデータセットを開発した。
論文 参考訳(メタデータ) (2024-03-22T11:21:51Z) - Multi-Agent Diagnostics for Robustness via Illuminated Diversity [37.38316542660311]
発光ダイバーシティ(MADRID)によるロバストネスのマルチエージェント診断法を提案する。
MADRIDは、事前訓練されたマルチエージェントポリシーの戦略的脆弱性を明らかにする様々な敵シナリオを生成する。
我々は,Google Research Footballの11vs11バージョンにおけるMADRIDの有効性を評価する。
論文 参考訳(メタデータ) (2024-01-24T14:02:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。