論文の概要: AutoDefense: Multi-Agent LLM Defense against Jailbreak Attacks
- arxiv url: http://arxiv.org/abs/2403.04783v1
- Date: Sat, 2 Mar 2024 16:52:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 06:19:57.830040
- Title: AutoDefense: Multi-Agent LLM Defense against Jailbreak Attacks
- Title(参考訳): AutoDefense: 脱獄攻撃に対するマルチエージェントLDM防衛
- Authors: Yifan Zeng, Yiran Wu, Xiao Zhang, Huazheng Wang, Qingyun Wu,
- Abstract要約: 大規模言語モデル(LLM)から有害な応答をフィルタリングする応答フィルタリングに基づくマルチエージェントディフェンスフレームワークを提案する。
このフレームワークはLLMエージェントに異なる役割を割り当て、防衛タスクを協調的に完了するためにそれらを利用する。
我々は,通常のユーザ要求での性能を維持しつつ,脱獄攻撃に対する堅牢性を向上するためのAutoDefenseの有効性を検証した。
- 参考スコア(独自算出の注目度): 20.5016054418053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite extensive pre-training and fine-tuning in moral alignment to prevent generating harmful information at user request, large language models (LLMs) remain vulnerable to jailbreak attacks. In this paper, we propose AutoDefense, a response-filtering based multi-agent defense framework that filters harmful responses from LLMs. This framework assigns different roles to LLM agents and employs them to complete the defense task collaboratively. The division in tasks enhances the overall instruction-following of LLMs and enables the integration of other defense components as tools. AutoDefense can adapt to various sizes and kinds of open-source LLMs that serve as agents. Through conducting extensive experiments on a large scale of harmful and safe prompts, we validate the effectiveness of the proposed AutoDefense in improving the robustness against jailbreak attacks, while maintaining the performance at normal user request. Our code and data are publicly available at https://github.com/XHMY/AutoDefense.
- Abstract(参考訳): ユーザ要求時に有害な情報を発生させないよう、広範囲な事前トレーニングとモラルアライメントの微調整にもかかわらず、大きな言語モデル(LLM)はジェイルブレイク攻撃に弱いままである。
本稿では,LSMから有害な応答をフィルタリングする応答フィルタリングに基づくマルチエージェント・ディフェンス・フレームワークであるAutoDefenseを提案する。
このフレームワークはLLMエージェントに異なる役割を割り当て、防衛タスクを協調的に完了するためにそれらを利用する。
タスクの分割は、LCMの全体的な命令フォローを強化し、他の防御コンポーネントをツールとして統合することを可能にする。
AutoDefenseは、エージェントとして機能するさまざまなサイズや種類のオープンソース LLM に対応できる。
大規模な有害かつ安全なプロンプト実験を行うことで,通常のユーザ要求で性能を維持しつつ,脱獄攻撃に対する堅牢性を向上する上で,提案するAutoDefenseの有効性を検証した。
私たちのコードとデータはhttps://github.com/XHMY/AutoDefense.comで公開されています。
関連論文リスト
- Protecting Your LLMs with Information Bottleneck [20.870610473199125]
本稿では,情報ボトルネック原理に基づく防御機構であるIBProtector(Information Bottleneck Protector)を紹介する。
IBProtectorは、軽量で訓練可能な抽出器によって促進されるプロンプトを選択的に圧縮し、摂動する。
IBProtectorはジェイルブレイク対策において,現在の防御方法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-22T08:16:07Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based
Agents [50.034049716274005]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。
まず、エージェントバックドア攻撃の一般的な枠組みを定式化し、その後、エージェントバックドア攻撃の様々な形態について徹底的に分析する。
本稿では,2つの典型的なエージェント・タスクに対するエージェント・バックドア・アタックのバリエーションを実装するためのデータ中毒機構を提案する。
論文 参考訳(メタデータ) (2024-02-17T06:48:45Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。