論文の概要: AutoDefense: Multi-Agent LLM Defense against Jailbreak Attacks
- arxiv url: http://arxiv.org/abs/2403.04783v2
- Date: Thu, 14 Nov 2024 18:14:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:23:05.748565
- Title: AutoDefense: Multi-Agent LLM Defense against Jailbreak Attacks
- Title(参考訳): AutoDefense: 脱獄攻撃に対するマルチエージェントLDM防衛
- Authors: Yifan Zeng, Yiran Wu, Xiao Zhang, Huazheng Wang, Qingyun Wu,
- Abstract要約: AutoDefenseは、大規模な言語モデルから有害な応答をフィルタリングするマルチエージェントディフェンスフレームワークである。
私たちのフレームワークは、異なるJailbreak攻撃プロンプトに対して堅牢であり、異なる犠牲者モデルを保護するために使用できます。
- 参考スコア(独自算出の注目度): 20.5016054418053
- License:
- Abstract: Despite extensive pre-training in moral alignment to prevent generating harmful information, large language models (LLMs) remain vulnerable to jailbreak attacks. In this paper, we propose AutoDefense, a multi-agent defense framework that filters harmful responses from LLMs. With the response-filtering mechanism, our framework is robust against different jailbreak attack prompts, and can be used to defend different victim models. AutoDefense assigns different roles to LLM agents and employs them to complete the defense task collaboratively. The division in tasks enhances the overall instruction-following of LLMs and enables the integration of other defense components as tools. With AutoDefense, small open-source LMs can serve as agents and defend larger models against jailbreak attacks. Our experiments show that AutoDefense can effectively defense against different jailbreak attacks, while maintaining the performance at normal user request. For example, we reduce the attack success rate on GPT-3.5 from 55.74% to 7.95% using LLaMA-2-13b with a 3-agent system. Our code and data are publicly available at https://github.com/XHMY/AutoDefense.
- Abstract(参考訳): 有害な情報の発生を防ぐために、道徳的アライメントが広範囲に事前訓練されているにもかかわらず、大きな言語モデル(LLM)は、ジェイルブレイク攻撃に弱いままである。
本稿では,LSMから有害な応答をフィルタリングするマルチエージェント・ディフェンス・フレームワークであるAutoDefenseを提案する。
応答フィルタリング機構により、我々のフレームワークは異なるジェイルブレイク攻撃プロンプトに対して堅牢であり、異なる犠牲者モデルを守るために使用できる。
AutoDefenseはLLMエージェントに異なる役割を割り当て、防衛タスクを協調的に完了するためにそれらを雇用する。
タスクの分割は、LCMの全体的な命令フォローを強化し、他の防御コンポーネントをツールとして統合することを可能にする。
AutoDefenseでは、小さなオープンソースLMがエージェントとして機能し、より大きなモデルをジェイルブレイク攻撃から防御する。
我々の実験は、AutoDefenseが通常のユーザ要求で性能を維持しながら、異なるジェイルブレイク攻撃に対して効果的に防御できることを示している。
例えば、GPT-3.5の攻撃成功率を55.74%から7.95%に下げる。
私たちのコードとデータはhttps://github.com/XHMY/AutoDefense.comで公開されています。
関連論文リスト
- HSF: Defending against Jailbreak Attacks with Hidden State Filtering [14.031010511732008]
隠れ状態フィルタ(HSF)に基づくジェイルブレイク攻撃防御戦略を提案する。
HSFは、推論プロセスが始まる前に、モデルが相手の入力をプリエンプティブに識別し、拒否することを可能にする。
不正なユーザクエリに対する応答を最小限に抑えながら、Jailbreak攻撃の成功率を大幅に低下させる。
論文 参考訳(メタデータ) (2024-08-31T06:50:07Z) - LLM Defenses Are Not Robust to Multi-Turn Human Jailbreaks Yet [11.83818222565186]
マルチターンヒトジェイルブレイクによって重大な脆弱性が発見され,HarmBenchの攻撃成功率(ASR)は70%を超えた。
我々はこれらの結果を537個のマルチターンジェイルブレイクにまたがる2,912個のプロンプトのデータセットであるMHJ(Multi-Turn Human Jailbreaks)にコンパイルする。
論文 参考訳(メタデータ) (2024-08-27T17:33:30Z) - SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner [21.414701448926614]
本稿では,自衛隊(SelfDefend)と呼ばれる総称LDMジェイルブレイク防御フレームワークを紹介する。
我々は、一般的なGPT-3.5/4モデルを用いて、主要なジェイルブレイク攻撃すべてに対して実証的に検証した。
これらのモデルは6つの最先端の防御性能を上回り、GPT-4ベースのSelfDefendの性能に匹敵する。
論文 参考訳(メタデータ) (2024-06-08T15:45:31Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - LLMs Can Defend Themselves Against Jailbreaking in a Practical Manner: A
Vision Paper [16.078682415975337]
Jailbreakingは、既成の大規模言語モデル(LLM)に配置された安全アライメントをバイパスする、新たな敵攻撃である。
本稿では,SELFDEFENDと呼ばれる軽量で実用的な防御手法を提案する。
jailbreakプロンプトが最小限の遅延と、通常のユーザプロンプトが無視できる遅延で、既存のjailbreak攻撃を防げます。
論文 参考訳(メタデータ) (2024-02-24T05:34:43Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。