論文の概要: Be a Multitude to Itself: A Prompt Evolution Framework for Red Teaming
- arxiv url: http://arxiv.org/abs/2502.16109v1
- Date: Sat, 22 Feb 2025 06:13:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:55:35.119716
- Title: Be a Multitude to Itself: A Prompt Evolution Framework for Red Teaming
- Title(参考訳): 自らをマルチチュードにする - レッドチームのためのプロンプト進化フレームワーク
- Authors: Rui Li, Peiyi Wang, Jingyuan Ma, Di Zhang, Lei Sha, Zhifang Sui,
- Abstract要約: Red Teamingは,Large Language Models(LLMs)から有害な応答を引き出す可能性のあるプロンプトを見つけることを目的とする。
広さと深さの両面にわたるレッド・チーム・プロンプトを進化させるスケーラブルな進化フレームワークRTPEを提案する。
RTPEは攻撃成功率と多様性の両方において、既存の代表的自動レッドチーム法を超越している。
- 参考スコア(独自算出の注目度): 24.303849271284676
- License:
- Abstract: Large Language Models (LLMs) have gained increasing attention for their remarkable capacity, alongside concerns about safety arising from their potential to produce harmful content. Red teaming aims to find prompts that could elicit harmful responses from LLMs, and is essential to discover and mitigate safety risks before real-world deployment. However, manual red teaming is both time-consuming and expensive, rendering it unscalable. In this paper, we propose RTPE, a scalable evolution framework to evolve red teaming prompts across both breadth and depth dimensions, facilitating the automatic generation of numerous high-quality and diverse red teaming prompts. Specifically, in-breadth evolving employs a novel enhanced in-context learning method to create a multitude of quality prompts, whereas in-depth evolving applies customized transformation operations to enhance both content and form of prompts, thereby increasing diversity. Extensive experiments demonstrate that RTPE surpasses existing representative automatic red teaming methods on both attack success rate and diversity. In addition, based on 4,800 red teaming prompts created by RTPE, we further provide a systematic analysis of 8 representative LLMs across 8 sensitive topics.
- Abstract(参考訳): 大規模言語モデル(LLM)は、有害なコンテンツを生み出す可能性から生じる安全性への懸念とともに、その顕著な能力に対して注目を集めている。
Red Teamingは,LLMから有害な応答を誘発する可能性のあるプロンプトを見つけることを目的としている。
しかし、手動のレッドチーム化は時間とコストの両方がかかり、スケールできない。
本稿では,多数の高品位かつ多種多様なレッド・チーム・プロンプトの自動生成を容易にするため,レッド・チーム・プロンプトを広義に進化させるスケーラブルな進化フレームワークRTPEを提案する。
特に、インブレッドス進化には、多数のクオリティプロンプトを作成するために、新しいインコンテキスト学習法が採用されているが、インブレッドス進化は、コンテンツとプロンプトの形式の両方を強化するためにカスタマイズされた変換操作を適用し、多様性を増大させる。
RTPEは攻撃成功率と多様性の両方において、既存の代表的自動レッドチーム法を超越している。
さらに,RTPEが作成した4,800個のレッド・チーム・プロンプトに基づいて,8つのセンシティブなトピックにまたがる8つの代表LDMの系統的分析を行った。
関連論文リスト
- Arondight: Red Teaming Large Vision Language Models with Auto-generated Multi-modal Jailbreak Prompts [25.661444231400772]
大規模視覚言語モデル(VLM)は、大規模言語モデル(LLM)の知覚能力を拡張し、拡張する
これらの進歩は、特に有害なコンテンツの生成に関して、重要なセキュリティと倫理上の懸念を引き起こす。
VLMに特化した標準化されたレッドチームフレームワークであるArondightを紹介します。
論文 参考訳(メタデータ) (2024-07-21T04:37:11Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Against The Achilles' Heel: A Survey on Red Teaming for Generative Models [60.21722603260243]
120以上の論文を調査し,言語モデル固有の能力に根ざした,きめ細かい攻撃戦略の分類を導入した。
我々は、様々な自動レッドチーム化アプローチを統合するために、"searcher"フレームワークを開発した。
論文 参考訳(メタデータ) (2024-03-31T09:50:39Z) - Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts [57.49685172971446]
敵のプロンプトを多種多様に集めるための新しいブラックボックスアプローチであるレインボー・ブッキングを紹介する。
提案手法では, 攻撃成功率が90%を超え, 効果的に対抗できるプロンプトが何百もあることが明らかとなった。
さらに、質問応答とサイバーセキュリティに適用することで、レインボーチーム(Rainbow Teaming)の汎用性についても検討する。
論文 参考訳(メタデータ) (2024-02-26T18:47:27Z) - Gradient-Based Language Model Red Teaming [9.972783485792885]
Red Teamingは、ジェネレーティブ言語モデル(LM)の弱点を特定するための戦略である
レッド・チームリングは、モデルアライメントと評価の両方に役立ちますが、人間によって行われると、労働集約的でスケールが難しいです。
我々は、LMが安全でない応答を出力する可能性のある多様なプロンプトを自動生成する、GBRT(Gradient-Based Red Teaming)を提案する。
論文 参考訳(メタデータ) (2024-01-30T01:19:25Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - Evolving Diverse Red-team Language Models in Multi-round Multi-agent Games [11.873513881458747]
Redチームは、Large Language Model(LLM)を攻撃して脆弱性を特定できる。
現在の取り組みは、単一ラウンドのプロンプト設計と、固定ブルーチームに対する一方的なレッドチームの最適化に大きく依存しています。
ここでは、レッドチームとブルーチーム間のマルチラウンド攻撃的および防御的相互作用を分析するために、動的レッドチームゲーム(RTG)を紹介します。
論文 参考訳(メタデータ) (2023-09-30T09:35:50Z) - FLIRT: Feedback Loop In-context Red Teaming [79.63896510559357]
ブラックボックスモデルを評価し,その脆弱性を明らかにする自動レッドチーム化フレームワークを提案する。
私たちのフレームワークは、レッドチームモデルに対するフィードバックループでコンテキスト内学習を使用し、それらを安全でないコンテンツ生成にトリガーします。
論文 参考訳(メタデータ) (2023-08-08T14:03:08Z) - PromptRobust: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts [76.18347405302728]
本研究は、文字、単語、文、意味といった複数のレベルにわたるプロンプトを標的とした、敵対的なテキスト攻撃を多用する。
相手のプロンプトは、感情分析、自然言語推論、読書理解、機械翻訳、数学の問題解決など様々なタスクに使用される。
以上の結果から,現代の大規模言語モデルでは,敵対的プロンプトに対して頑健ではないことが示唆された。
論文 参考訳(メタデータ) (2023-06-07T15:37:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。