論文の概要: AutoDefense: Multi-Agent LLM Defense against Jailbreak Attacks
- arxiv url: http://arxiv.org/abs/2403.04783v1
- Date: Sat, 2 Mar 2024 16:52:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 06:19:57.830040
- Title: AutoDefense: Multi-Agent LLM Defense against Jailbreak Attacks
- Title(参考訳): AutoDefense: 脱獄攻撃に対するマルチエージェントLDM防衛
- Authors: Yifan Zeng, Yiran Wu, Xiao Zhang, Huazheng Wang, Qingyun Wu,
- Abstract要約: 大規模言語モデル(LLM)から有害な応答をフィルタリングする応答フィルタリングに基づくマルチエージェントディフェンスフレームワークを提案する。
このフレームワークはLLMエージェントに異なる役割を割り当て、防衛タスクを協調的に完了するためにそれらを利用する。
我々は,通常のユーザ要求での性能を維持しつつ,脱獄攻撃に対する堅牢性を向上するためのAutoDefenseの有効性を検証した。
- 参考スコア(独自算出の注目度): 20.5016054418053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite extensive pre-training and fine-tuning in moral alignment to prevent generating harmful information at user request, large language models (LLMs) remain vulnerable to jailbreak attacks. In this paper, we propose AutoDefense, a response-filtering based multi-agent defense framework that filters harmful responses from LLMs. This framework assigns different roles to LLM agents and employs them to complete the defense task collaboratively. The division in tasks enhances the overall instruction-following of LLMs and enables the integration of other defense components as tools. AutoDefense can adapt to various sizes and kinds of open-source LLMs that serve as agents. Through conducting extensive experiments on a large scale of harmful and safe prompts, we validate the effectiveness of the proposed AutoDefense in improving the robustness against jailbreak attacks, while maintaining the performance at normal user request. Our code and data are publicly available at https://github.com/XHMY/AutoDefense.
- Abstract(参考訳): ユーザ要求時に有害な情報を発生させないよう、広範囲な事前トレーニングとモラルアライメントの微調整にもかかわらず、大きな言語モデル(LLM)はジェイルブレイク攻撃に弱いままである。
本稿では,LSMから有害な応答をフィルタリングする応答フィルタリングに基づくマルチエージェント・ディフェンス・フレームワークであるAutoDefenseを提案する。
このフレームワークはLLMエージェントに異なる役割を割り当て、防衛タスクを協調的に完了するためにそれらを利用する。
タスクの分割は、LCMの全体的な命令フォローを強化し、他の防御コンポーネントをツールとして統合することを可能にする。
AutoDefenseは、エージェントとして機能するさまざまなサイズや種類のオープンソース LLM に対応できる。
大規模な有害かつ安全なプロンプト実験を行うことで,通常のユーザ要求で性能を維持しつつ,脱獄攻撃に対する堅牢性を向上する上で,提案するAutoDefenseの有効性を検証した。
私たちのコードとデータはhttps://github.com/XHMY/AutoDefense.comで公開されています。
関連論文リスト
- HSF: Defending against Jailbreak Attacks with Hidden State Filtering [14.031010511732008]
隠れ状態フィルタ(HSF)に基づくジェイルブレイク攻撃防御戦略を提案する。
HSFは、推論プロセスが始まる前に、モデルが相手の入力をプリエンプティブに識別し、拒否することを可能にする。
不正なユーザクエリに対する応答を最小限に抑えながら、Jailbreak攻撃の成功率を大幅に低下させる。
論文 参考訳(メタデータ) (2024-08-31T06:50:07Z) - LLM Defenses Are Not Robust to Multi-Turn Human Jailbreaks Yet [11.83818222565186]
マルチターンヒトジェイルブレイクによって重大な脆弱性が発見され,HarmBenchの攻撃成功率(ASR)は70%を超えた。
我々はこれらの結果を537個のマルチターンジェイルブレイクにまたがる2,912個のプロンプトのデータセットであるMHJ(Multi-Turn Human Jailbreaks)にコンパイルする。
論文 参考訳(メタデータ) (2024-08-27T17:33:30Z) - SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner [21.414701448926614]
本稿では,自衛隊(SelfDefend)と呼ばれる総称LDMジェイルブレイク防御フレームワークを紹介する。
我々は、一般的なGPT-3.5/4モデルを用いて、主要なジェイルブレイク攻撃すべてに対して実証的に検証した。
これらのモデルは6つの最先端の防御性能を上回り、GPT-4ベースのSelfDefendの性能に匹敵する。
論文 参考訳(メタデータ) (2024-06-08T15:45:31Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - LLMs Can Defend Themselves Against Jailbreaking in a Practical Manner: A
Vision Paper [16.078682415975337]
Jailbreakingは、既成の大規模言語モデル(LLM)に配置された安全アライメントをバイパスする、新たな敵攻撃である。
本稿では,SELFDEFENDと呼ばれる軽量で実用的な防御手法を提案する。
jailbreakプロンプトが最小限の遅延と、通常のユーザプロンプトが無視できる遅延で、既存のjailbreak攻撃を防げます。
論文 参考訳(メタデータ) (2024-02-24T05:34:43Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。