論文の概要: Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts
- arxiv url: http://arxiv.org/abs/2402.16822v1
- Date: Mon, 26 Feb 2024 18:47:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 19:29:42.862119
- Title: Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts
- Title(参考訳): rainbow teaming: さまざまな敵のプロンプトのオープンな世代
- Authors: Mikayel Samvelyan, Sharath Chandra Raparthy, Andrei Lupu, Eric Hambro,
Aram H. Markosyan, Manish Bhatt, Yuning Mao, Minqi Jiang, Jack Parker-Holder,
Jakob Foerster, Tim Rockt\"aschel, Roberta Raileanu
- Abstract要約: 我々は、様々な敵のプロンプトを生産するための新しいアプローチであるレインボー・ブッキングを提示する。
この論文では、安全性、質問応答、サイバーセキュリティなど、幅広い領域にわたるモデルの脆弱性を明らかにすることができる。
- 参考スコア(独自算出の注目度): 48.84371867045439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) become increasingly prevalent across many
real-world applications, understanding and enhancing their robustness to user
inputs is of paramount importance. Existing methods for identifying adversarial
prompts tend to focus on specific domains, lack diversity, or require extensive
human annotations. To address these limitations, we present Rainbow Teaming, a
novel approach for producing a diverse collection of adversarial prompts.
Rainbow Teaming casts adversarial prompt generation as a quality-diversity
problem, and uses open-ended search to generate prompts that are both effective
and diverse. It can uncover a model's vulnerabilities across a broad range of
domains including, in this paper, safety, question answering, and
cybersecurity. We also demonstrate that fine-tuning on synthetic data generated
by Rainbow Teaming improves the safety of state-of-the-art LLMs without hurting
their general capabilities and helpfulness, paving the path to open-ended
self-improvement.
- Abstract(参考訳): 大規模言語モデル(llm)が多くの現実のアプリケーションで普及するにつれ、ユーザ入力に対するロバスト性の理解と強化が重要になっている。
敵のプロンプトを特定する既存の方法は、特定のドメイン、多様性の欠如、あるいは広範な人間のアノテーションを必要とする傾向がある。
このような制約に対処するため、様々な敵のプロンプトを生産するための新しいアプローチであるレインボー・チーム(Rainbow Teaming)を提案する。
Rainbow Teamingは、品質多様性の問題として敵のプロンプト生成をキャストし、オープンな検索を使用して、効果的かつ多様なプロンプトを生成する。
この論文では、安全、質問応答、サイバーセキュリティなど、幅広いドメインにわたるモデルの脆弱性を明らかにすることができる。
また,Rainbow Teamingが生成した合成データの微調整により,汎用性と有用性を損なうことなく,最先端のLCMの安全性が向上し,オープンエンド自己改善への道が拓かれることを示した。
関連論文リスト
- Against The Achilles' Heel: A Survey on Red Teaming for Generative Models [60.21722603260243]
赤いチーム作りの分野は急速に成長しており、パイプライン全体をカバーする包括的な組織の必要性を強調している。
120以上の論文を調査し,言語モデル固有の能力に根ざした,きめ細かい攻撃戦略の分類を導入した。
我々は,様々な自動レッド・チーム・アプローチを統合するサーチ・フレームワークを開発した。
論文 参考訳(メタデータ) (2024-03-31T09:50:39Z) - An Open-World, Diverse, Cross-Spatial-Temporal Benchmark for Dynamic Wild Person Re-Identification [58.5877965612088]
人物再識別(ReID)は、データ駆動のディープラーニング技術のおかげで大きな進歩を遂げました。
既存のベンチマークデータセットには多様性がなく、これらのデータに基づいてトレーニングされたモデルは、動的なワイルドシナリオに対してうまく一般化できない。
OWDと呼ばれる新しいOpen-World, Diverse, Cross-Spatial-Temporalデータセットを開発した。
論文 参考訳(メタデータ) (2024-03-22T11:21:51Z) - Defending Against Indirect Prompt Injection Attacks With Spotlighting [11.127479817618692]
一般的なアプリケーションでは、複数の入力は1つのテキストストリームにまとめることで処理できる。
間接的なプロンプトインジェクション攻撃は、ユーザコマンドと共に処理されている信頼できないデータに、敵命令を埋め込むことによって、この脆弱性を利用する。
我々は,複数の入力源を識別するLLMの能力を向上させるために,迅速なエンジニアリング技術群であるスポットライティングを紹介した。
論文 参考訳(メタデータ) (2024-03-20T15:26:23Z) - Multi-Agent Diagnostics for Robustness via Illuminated Diversity [37.38316542660311]
発光ダイバーシティ(MADRID)によるロバストネスのマルチエージェント診断法を提案する。
MADRIDは、事前訓練されたマルチエージェントポリシーの戦略的脆弱性を明らかにする様々な敵シナリオを生成する。
我々は,Google Research Footballの11vs11バージョンにおけるMADRIDの有効性を評価する。
論文 参考訳(メタデータ) (2024-01-24T14:02:09Z) - Multi-Prompts Learning with Cross-Modal Alignment for Attribute-based
Person Re-Identification [18.01407937934588]
本稿では,素早い学習と言語モデルに基づくMP-ReID(Multi-Prompts ReID)という新しいフレームワークを提案する。
MP-ReIDは、クエリイメージを記述するために、多様で情報的、即応的な文を幻覚させることを学ぶ。
明示的なプロンプトは、ChatGPTやVQAモデルといった世代モデルをアンサンブルすることで得られる。
論文 参考訳(メタデータ) (2023-12-28T03:00:19Z) - Adversarial Prompt Tuning for Vision-Language Models [90.89469048482249]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における画像エンコーダの対向ロバスト性を高める技術である。
我々は,AdvPTが白箱攻撃や黒箱攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで相乗効果を示すことを示した。
論文 参考訳(メタデータ) (2023-11-19T07:47:43Z) - MGD-GAN: Text-to-Pedestrian generation through Multi-Grained
Discrimination [96.91091607251526]
本稿では, 人的部分に基づく識別器と自己対応型識別器を併用した多点識別拡張生成適応ネットワークを提案する。
HPDモジュールには、多彩な外観と鮮明な詳細を強制するために、きめ細かい単語レベルの注意機構が採用されている。
様々な測定値に対する大幅な改善は、MGD-GANがテキストからペデストリアン合成シナリオに有効であることを示す。
論文 参考訳(メタデータ) (2020-10-02T12:24:48Z) - Deep Learning for Person Re-identification: A Survey and Outlook [233.36948173686602]
人物再識別(Re-ID)は、複数の重複しないカメラを通して興味ある人物を検索することを目的としている。
人物のRe-IDシステム開発に関わるコンポーネントを分離することにより、それをクローズドワールドとオープンワールドのセッティングに分類する。
論文 参考訳(メタデータ) (2020-01-13T12:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。