論文の概要: Purple-teaming LLMs with Adversarial Defender Training
- arxiv url: http://arxiv.org/abs/2407.01850v1
- Date: Mon, 1 Jul 2024 23:25:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 17:13:22.493042
- Title: Purple-teaming LLMs with Adversarial Defender Training
- Title(参考訳): 対向ディフェンダー訓練によるパープルピーピングLLM
- Authors: Jingyan Zhou, Kun Li, Junan Li, Jiawen Kang, Minda Hu, Xixin Wu, Helen Meng,
- Abstract要約: 本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。
PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。
PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
- 参考スコア(独自算出の注目度): 57.535241000787416
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Existing efforts in safeguarding LLMs are limited in actively exposing the vulnerabilities of the target LLM and readily adapting to newly emerging safety risks. To address this, we present Purple-teaming LLMs with Adversarial Defender training (PAD), a pipeline designed to safeguard LLMs by novelly incorporating the red-teaming (attack) and blue-teaming (safety training) techniques. In PAD, we automatically collect conversational data that cover the vulnerabilities of an LLM around specific safety risks in a self-play manner, where the attacker aims to elicit unsafe responses and the defender generates safe responses to these attacks. We then update both modules in a generative adversarial network style by training the attacker to elicit more unsafe responses and updating the defender to identify them and explain the unsafe reason. Experimental results demonstrate that PAD significantly outperforms existing baselines in both finding effective attacks and establishing a robust safe guardrail. Furthermore, our findings indicate that PAD excels in striking a balance between safety and overall model quality. We also reveal key challenges in safeguarding LLMs, including defending multi-turn attacks and the need for more delicate strategies to identify specific risks.
- Abstract(参考訳): 既存のLLMの保護への取り組みは、目標のLLMの脆弱性を積極的に暴露し、新たに出現する安全リスクに迅速に適応するために限られている。
そこで本稿では,新たに赤チーム(攻撃)と青チーム(安全訓練)技術を導入して,LPMの安全を守るパイプラインであるPAD(Adversarial Defender Training)を用いたパープルピーピングLLMを提案する。
PADでは, LLMの脆弱性をカバーする会話データを自動的に収集し, 攻撃者が安全でない応答を誘導し, 攻撃に対する安全応答を生成する。
次に、攻撃者がより安全でない応答を誘発するように訓練し、ディフェンダーを更新してそれらを特定し、安全でない理由を説明することで、生成的敵ネットワークスタイルで両方のモジュールを更新する。
実験の結果,PADは有効攻撃の発見と安全ガードレールの確立において,既存のベースラインを著しく上回っていることがわかった。
さらに,PADは安全性と全体のモデル品質のバランスを保っていることが示唆された。
また、マルチターン攻撃の防衛や、特定のリスクを特定するためのより繊細な戦略の必要性など、LSMを保護する上での重要な課題を明らかにします。
関連論文リスト
- PathSeeker: Exploring LLM Security Vulnerabilities with a Reinforcement Learning-Based Jailbreak Approach [25.31933913962953]
大規模言語モデル(LLM)が広く普及し、セキュリティに対する懸念が高まっている。
そこで我々は,迷路から逃れるネズミのゲームに触発された新しいブラックボックスジェイルブレイク手法PathSeekerを紹介した。
提案手法は,13の商用およびオープンソース LLM を対象としたテストにおいて,最先端の攻撃技術として5つの性能を発揮した。
論文 参考訳(メタデータ) (2024-09-21T15:36:26Z) - Defending against Reverse Preference Attacks is Difficult [26.872318173182414]
大きな言語モデル(LLM)は、有害なデータセットに対する教師付き微調整(SFT)のようなトレーニング時の攻撃に対して脆弱である。
本研究では,LLMが人間からのフィードバックから強化学習を行う際に,相手の報酬を用いて有害な行動を学習できるようにするために,Reverse Preference Attacks (RPA)を提案する。
論文 参考訳(メタデータ) (2024-09-19T17:10:34Z) - Emerging Safety Attack and Defense in Federated Instruction Tuning of Large Language Models [51.85781332922943]
フェデレートラーニング(FL)は、複数のパーティが直接データ共有を必要とせずに、共同で大きな言語モデル(LLM)を微調整することを可能にする。
我々は、シンプルでステルス的で効果的な安全攻撃手法を提案することにより、FedITにおける安全性アライメントの脆弱性を初めて明らかにした。
論文 参考訳(メタデータ) (2024-06-15T13:24:22Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Uncovering Safety Risks of Large Language Models through Concept Activation Vector [13.804245297233454]
大規模言語モデル(LLM)に対する攻撃を誘導する安全概念活性化ベクトル(SCAV)フレームワークについて紹介する。
そこで我々は,攻撃プロンプトと埋め込みレベルの攻撃の両方を生成できるSCAV誘導攻撃法を開発した。
本手法は,トレーニングデータが少なくなるとともに,攻撃成功率と応答品質を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T09:46:25Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on
Large Language Models [82.98081731588717]
大規模な言語モデルと外部コンテンツの統合は、間接的にインジェクション攻撃を行うアプリケーションを公開する。
本稿では,BIPIAと呼ばれる間接的インジェクション攻撃のリスクを評価するための最初のベンチマークについて紹介する。
我々は,素早い学習に基づく2つのブラックボックス法と,逆行訓練による微調整に基づくホワイトボックス防御法を開発した。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - MART: Improving LLM Safety with Multi-round Automatic Red-Teaming [72.2127916030909]
本稿では,自動対向的なプロンプト書き込みと安全な応答生成の両方を組み込んだMulti-round Automatic Red-Teaming(MART)手法を提案する。
敵のプロンプトベンチマークでは、安全アライメントが制限されたLDMの違反率は、MARTの4ラウンド後に84.7%まで減少する。
特に、非敵対的なプロンプトに対するモデルの有用性は反復を通して安定しており、LLMは命令に対する強い性能を維持していることを示している。
論文 参考訳(メタデータ) (2023-11-13T19:13:29Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。