Fugu-MT 論文翻訳(概要): AutoDefense: Multi-Agent LLM Defense against Jailbreak Attacks

論文の概要: AutoDefense: Multi-Agent LLM Defense against Jailbreak Attacks

arxiv url: http://arxiv.org/abs/2403.04783v1
Date: Sat, 2 Mar 2024 16:52:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-18 06:19:57.830040
Title: AutoDefense: Multi-Agent LLM Defense against Jailbreak Attacks
Title（参考訳）: AutoDefense: 脱獄攻撃に対するマルチエージェントLDM防衛
Authors: Yifan Zeng, Yiran Wu, Xiao Zhang, Huazheng Wang, Qingyun Wu,
Abstract要約: 大規模言語モデル(LLM)から有害な応答をフィルタリングする応答フィルタリングに基づくマルチエージェントディフェンスフレームワークを提案する。このフレームワークはLLMエージェントに異なる役割を割り当て、防衛タスクを協調的に完了するためにそれらを利用する。我々は,通常のユーザ要求での性能を維持しつつ,脱獄攻撃に対する堅牢性を向上するためのAutoDefenseの有効性を検証した。
参考スコア（独自算出の注目度）: 20.5016054418053
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite extensive pre-training and fine-tuning in moral alignment to prevent generating harmful information at user request, large language models (LLMs) remain vulnerable to jailbreak attacks. In this paper, we propose AutoDefense, a response-filtering based multi-agent defense framework that filters harmful responses from LLMs. This framework assigns different roles to LLM agents and employs them to complete the defense task collaboratively. The division in tasks enhances the overall instruction-following of LLMs and enables the integration of other defense components as tools. AutoDefense can adapt to various sizes and kinds of open-source LLMs that serve as agents. Through conducting extensive experiments on a large scale of harmful and safe prompts, we validate the effectiveness of the proposed AutoDefense in improving the robustness against jailbreak attacks, while maintaining the performance at normal user request. Our code and data are publicly available at https://github.com/XHMY/AutoDefense.
Abstract（参考訳）: ユーザ要求時に有害な情報を発生させないよう、広範囲な事前トレーニングとモラルアライメントの微調整にもかかわらず、大きな言語モデル(LLM)はジェイルブレイク攻撃に弱いままである。本稿では,LSMから有害な応答をフィルタリングする応答フィルタリングに基づくマルチエージェント・ディフェンス・フレームワークであるAutoDefenseを提案する。このフレームワークはLLMエージェントに異なる役割を割り当て、防衛タスクを協調的に完了するためにそれらを利用する。タスクの分割は、LCMの全体的な命令フォローを強化し、他の防御コンポーネントをツールとして統合することを可能にする。 AutoDefenseは、エージェントとして機能するさまざまなサイズや種類のオープンソース LLM に対応できる。大規模な有害かつ安全なプロンプト実験を行うことで,通常のユーザ要求で性能を維持しつつ,脱獄攻撃に対する堅牢性を向上する上で,提案するAutoDefenseの有効性を検証した。私たちのコードとデータはhttps://github.com/XHMY/AutoDefense.comで公開されています。

関連論文リスト

Evaluating Multi-Agent Defences Against Jailbreaking Attacks on Large Language Models [4.757470449749876]
本稿では,脱獄攻撃に対する防御手段として,マルチエージェントLLMシステムを用いた場合について検討する。我々は、最初のAutoDefense攻撃とDeepleapsの2つのJB(BetterDanとJB)を含む3つのジェイルブレイク戦略を評価した。以上の結果から,マルチエージェントシステムは脱獄に対する耐性を高めることが示唆された。
論文参考訳（メタデータ） (2025-06-30T07:29:07Z)
One Model Transfer to All: On Robust Jailbreak Prompts Generation against LLMs [13.54228868302755]
ArrAttackは、防衛された大規模言語モデル(LLM)をターゲットにした攻撃方法である。 ArrAttackは、様々な防御措置をバイパスできる堅牢なジェイルブレイクプロンプトを自動的に生成する。私たちの仕事は、ジェイルブレイク攻撃と防衛のギャップを埋め、堅牢なジェイルブレイクプロンプトを生成するための新たな視点を提供します。
論文参考訳（メタデータ） (2025-05-23T08:02:38Z)
LightDefense: A Lightweight Uncertainty-Driven Defense against Jailbreaks via Shifted Token Distribution [84.2846064139183]
大規模言語モデル(LLM)は、脱獄プロンプトからの脅威に直面している。ホワイトボックスモデルを対象とした軽量防衛機構であるLightDefenseを提案する。
論文参考訳（メタデータ） (2025-04-02T09:21:26Z)
AutoAdvExBench: Benchmarking autonomous exploitation of adversarial example defenses [66.87883360545361]
AutoAdvExBenchは、大規模言語モデル(LLM)が敵の例に対する防衛を自律的に活用できるかどうかを評価するためのベンチマークである。我々は,CTF様(ホームワークエクササイズ)の75%を破壊できる強力なエージェントを設計する。このエージェントは、我々のベンチマークの現実世界の防御の13%でしか成功できないことを示し、実際の"コードを攻撃することの難しさとCTFライクなコードとの間に大きなギャップがあることを示します。
論文参考訳（メタデータ） (2025-03-03T18:39:48Z)
FlexLLM: Exploring LLM Customization for Moving Target Defense on Black-Box LLMs Against Jailbreak Attacks [7.31505609352525]
大規模言語モデル(LLM)の防衛は、有害なコンテンツを生成するためにこれらのシステムを利用する多数の攻撃者に対抗するために不可欠である。モデルロバスト性を高めるために、デコードハイパーパラメータを変更する移動目標防御手法を提案する。以上の結果から,テストした3つのモデルのうち,我々の防衛は脱獄攻撃に対して最も効果的であることが示された。
論文参考訳（メタデータ） (2024-12-10T17:02:28Z)
HSF: Defending against Jailbreak Attacks with Hidden State Filtering [14.031010511732008]
隠れ状態フィルタ(HSF)に基づくジェイルブレイク攻撃防御戦略を提案する。 HSFは、推論プロセスが始まる前に、モデルが相手の入力をプリエンプティブに識別し、拒否することを可能にする。不正なユーザクエリに対する応答を最小限に抑えながら、Jailbreak攻撃の成功率を大幅に低下させる。
論文参考訳（メタデータ） (2024-08-31T06:50:07Z)
LLM Defenses Are Not Robust to Multi-Turn Human Jailbreaks Yet [11.83818222565186]
マルチターンヒトジェイルブレイクによって重大な脆弱性が発見され,HarmBenchの攻撃成功率(ASR)は70%を超えた。我々はこれらの結果を537個のマルチターンジェイルブレイクにまたがる2,912個のプロンプトのデータセットであるMHJ(Multi-Turn Human Jailbreaks)にコンパイルする。
論文参考訳（メタデータ） (2024-08-27T17:33:30Z)
SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner [21.414701448926614]
本稿では,自衛隊(SelfDefend)と呼ばれる総称LDMジェイルブレイク防御フレームワークを紹介する。我々は、一般的なGPT-3.5/4モデルを用いて、主要なジェイルブレイク攻撃すべてに対して実証的に検証した。これらのモデルは6つの最先端の防御性能を上回り、GPT-4ベースのSelfDefendの性能に匹敵する。
論文参考訳（メタデータ） (2024-06-08T15:45:31Z)
AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。包括的な、自動化された、論理的な3つのフレームワークを提案します。このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文参考訳（メタデータ） (2024-06-06T07:24:41Z)
AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文参考訳（メタデータ） (2024-03-14T15:57:13Z)
LLMs Can Defend Themselves Against Jailbreaking in a Practical Manner: A Vision Paper [16.078682415975337]
Jailbreakingは、既成の大規模言語モデル(LLM)に配置された安全アライメントをバイパスする、新たな敵攻撃である。本稿では,SELFDEFENDと呼ばれる軽量で実用的な防御手法を提案する。 jailbreakプロンプトが最小限の遅延と、通常のユーザプロンプトが無視できる遅延で、既存のjailbreak攻撃を防げます。
論文参考訳（メタデータ） (2024-02-24T05:34:43Z)
Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。既存のジェイルブレイク法は計算コストがかかる。我々は、弱々しく強固な脱獄攻撃を提案する。
論文参考訳（メタデータ） (2024-01-30T18:48:37Z)
Attack Prompt Generation for Red Teaming and Defending Large Language Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文参考訳（メタデータ） (2023-10-19T06:15:05Z)
SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文参考訳（メタデータ） (2023-10-05T17:01:53Z)
Baseline Defenses for Adversarial Attacks Against Aligned Language Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文参考訳（メタデータ） (2023-09-01T17:59:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。