Fugu-MT 論文翻訳(概要): Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts

論文の概要: Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts

arxiv url: http://arxiv.org/abs/2402.16822v1
Date: Mon, 26 Feb 2024 18:47:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 19:29:42.862119
Title: Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts
Title（参考訳）: rainbow teaming: さまざまな敵のプロンプトのオープンな世代
Authors: Mikayel Samvelyan, Sharath Chandra Raparthy, Andrei Lupu, Eric Hambro, Aram H. Markosyan, Manish Bhatt, Yuning Mao, Minqi Jiang, Jack Parker-Holder, Jakob Foerster, Tim Rockt\"aschel, Roberta Raileanu
Abstract要約: 我々は、様々な敵のプロンプトを生産するための新しいアプローチであるレインボー・ブッキングを提示する。この論文では、安全性、質問応答、サイバーセキュリティなど、幅広い領域にわたるモデルの脆弱性を明らかにすることができる。
参考スコア（独自算出の注目度）: 48.84371867045439
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As large language models (LLMs) become increasingly prevalent across many real-world applications, understanding and enhancing their robustness to user inputs is of paramount importance. Existing methods for identifying adversarial prompts tend to focus on specific domains, lack diversity, or require extensive human annotations. To address these limitations, we present Rainbow Teaming, a novel approach for producing a diverse collection of adversarial prompts. Rainbow Teaming casts adversarial prompt generation as a quality-diversity problem, and uses open-ended search to generate prompts that are both effective and diverse. It can uncover a model's vulnerabilities across a broad range of domains including, in this paper, safety, question answering, and cybersecurity. We also demonstrate that fine-tuning on synthetic data generated by Rainbow Teaming improves the safety of state-of-the-art LLMs without hurting their general capabilities and helpfulness, paving the path to open-ended self-improvement.
Abstract（参考訳）: 大規模言語モデル(llm)が多くの現実のアプリケーションで普及するにつれ、ユーザ入力に対するロバスト性の理解と強化が重要になっている。敵のプロンプトを特定する既存の方法は、特定のドメイン、多様性の欠如、あるいは広範な人間のアノテーションを必要とする傾向がある。このような制約に対処するため、様々な敵のプロンプトを生産するための新しいアプローチであるレインボー・チーム(Rainbow Teaming)を提案する。 Rainbow Teamingは、品質多様性の問題として敵のプロンプト生成をキャストし、オープンな検索を使用して、効果的かつ多様なプロンプトを生成する。この論文では、安全、質問応答、サイバーセキュリティなど、幅広いドメインにわたるモデルの脆弱性を明らかにすることができる。また,Rainbow Teamingが生成した合成データの微調整により,汎用性と有用性を損なうことなく,最先端のLCMの安全性が向上し,オープンエンド自己改善への道が拓かれることを示した。

関連論文リスト

RainbowPlus: Enhancing Adversarial Prompt Generation via Evolutionary Quality-Diversity Search [1.515687944002438]
進化計算に根ざした新しい赤チームフレームワークであるRainbowPlusを提案する。 RainbowPlusは、適応的な品質多様性探索を通じて、敵のプロンプト生成を強化する。当社のオープンソース実装は安全性の向上を促進し、脆弱性評価のためのスケーラブルなツールを提供しています。
論文参考訳（メタデータ） (2025-04-21T12:04:57Z)
Manipulating Multimodal Agents via Cross-Modal Prompt Injection [34.35145839873915]
マルチモーダルエージェントにおいて、これまで見過ごされていた重要なセキュリティ脆弱性を特定します。攻撃者が複数のモードにまたがって敵の摂動を埋め込む新たな攻撃フレームワークであるCrossInjectを提案する。提案手法は既存のインジェクション攻撃よりも優れており,攻撃成功率が少なくとも26.4%向上している。
論文参考訳（メタデータ） (2025-04-19T16:28:03Z)
Be a Multitude to Itself: A Prompt Evolution Framework for Red Teaming [24.303849271284676]
Red Teamingは,Large Language Models(LLMs)から有害な応答を引き出す可能性のあるプロンプトを見つけることを目的とする。広さと深さの両面にわたるレッド・チーム・プロンプトを進化させるスケーラブルな進化フレームワークRTPEを提案する。 RTPEは攻撃成功率と多様性の両方において、既存の代表的自動レッドチーム法を超越している。
論文参考訳（メタデータ） (2025-02-22T06:13:19Z)
Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。有害なクエリを良心的な推論タスクに再構成する。 RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文参考訳（メタデータ） (2025-02-16T09:27:44Z)
Ferret: Faster and Effective Automated Red Teaming with Reward-Based Scoring Technique [22.2168585464366]
FerretはRainbow Teamingをベースにした新しいアプローチである。フェレットは総合攻撃成功率(ASR)を95%に改善し、レインボーチームよりも46%高い。
論文参考訳（メタデータ） (2024-08-20T09:58:01Z)
Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文参考訳（メタデータ） (2024-05-28T19:16:17Z)
White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文参考訳（メタデータ） (2024-05-28T07:13:30Z)
Against The Achilles' Heel: A Survey on Red Teaming for Generative Models [60.21722603260243]
120以上の論文を調査し,言語モデル固有の能力に根ざした,きめ細かい攻撃戦略の分類を導入した。我々は、様々な自動レッドチーム化アプローチを統合するために、"searcher"フレームワークを開発した。
論文参考訳（メタデータ） (2024-03-31T09:50:39Z)
An Open-World, Diverse, Cross-Spatial-Temporal Benchmark for Dynamic Wild Person Re-Identification [58.5877965612088]
人物再識別(ReID)は、データ駆動のディープラーニング技術のおかげで大きな進歩を遂げました。既存のベンチマークデータセットには多様性がなく、これらのデータに基づいてトレーニングされたモデルは、動的なワイルドシナリオに対してうまく一般化できない。 OWDと呼ばれる新しいOpen-World, Diverse, Cross-Spatial-Temporalデータセットを開発した。
論文参考訳（メタデータ） (2024-03-22T11:21:51Z)
Multi-Agent Diagnostics for Robustness via Illuminated Diversity [37.38316542660311]
発光ダイバーシティ(MADRID)によるロバストネスのマルチエージェント診断法を提案する。 MADRIDは、事前訓練されたマルチエージェントポリシーの戦略的脆弱性を明らかにする様々な敵シナリオを生成する。我々は,Google Research Footballの11vs11バージョンにおけるMADRIDの有効性を評価する。
論文参考訳（メタデータ） (2024-01-24T14:02:09Z)
Adversarial Prompt Tuning for Vision-Language Models [86.5543597406173]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における画像エンコーダの対向ロバスト性を高める技術である。我々は,AdvPTが白箱攻撃や黒箱攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで相乗効果を示すことを示した。
論文参考訳（メタデータ） (2023-11-19T07:47:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。