論文の概要: Evaluating Multi-Agent Defences Against Jailbreaking Attacks on Large Language Models
- arxiv url: http://arxiv.org/abs/2506.23576v1
- Date: Mon, 30 Jun 2025 07:29:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.956447
- Title: Evaluating Multi-Agent Defences Against Jailbreaking Attacks on Large Language Models
- Title(参考訳): 大規模言語モデルによる脱獄攻撃に対するマルチエージェント防御の評価
- Authors: Maria Carolina Cornelia Wit, Jun Pang,
- Abstract要約: 本稿では,脱獄攻撃に対する防御手段として,マルチエージェントLLMシステムを用いた場合について検討する。
我々は、最初のAutoDefense攻撃とDeepleapsの2つのJB(BetterDanとJB)を含む3つのジェイルブレイク戦略を評価した。
以上の結果から,マルチエージェントシステムは脱獄に対する耐性を高めることが示唆された。
- 参考スコア(独自算出の注目度): 4.757470449749876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have raised concerns about jailbreaking attacks, i.e., prompts that bypass safety mechanisms. This paper investigates the use of multi-agent LLM systems as a defence against such attacks. We evaluate three jailbreaking strategies, including the original AutoDefense attack and two from Deepleaps: BetterDan and JB. Reproducing the AutoDefense framework, we compare single-agent setups with two- and three-agent configurations. Our results show that multi-agent systems enhance resistance to jailbreaks, especially by reducing false negatives. However, its effectiveness varies by attack type, and it introduces trade-offs such as increased false positives and computational overhead. These findings point to the limitations of current automated defences and suggest directions for improving alignment robustness in future LLM systems.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、脱獄攻撃、すなわち安全性のメカニズムをバイパスすることへの懸念を提起している。
本稿では,このような攻撃に対する防御手段として,マルチエージェントLLMシステムを用いる方法について検討する。
我々は、最初のAutoDefense攻撃とDeepleapsの2つのJB(BetterDanとJB)を含む3つのジェイルブレイク戦略を評価した。
AutoDefenseフレームワークを再現し、単一エージェントのセットアップと2エージェントと3エージェントの設定を比較します。
以上の結果から,マルチエージェントシステムは脱獄に対する耐性を高めることが示唆された。
しかし、その有効性は攻撃タイプによって異なり、偽陽性の増加や計算オーバーヘッドなどのトレードオフがもたらされる。
これらの知見は、現在の自動防御の限界を指摘し、将来のLLMシステムにおけるアライメントロバスト性向上の方向性を示唆している。
関連論文リスト
- Test-Time Immunization: A Universal Defense Framework Against Jailbreaks for (Multimodal) Large Language Models [80.66766532477973]
テストタイム免疫(TIM)は、自己進化的な方法で様々なジェイルブレイク攻撃に対して適応的に防御することができる。
テストタイム免疫(TIM)は、自己進化的な方法で様々なジェイルブレイク攻撃に対して適応的に防御することができる。
論文 参考訳(メタデータ) (2025-05-28T11:57:46Z) - One Model Transfer to All: On Robust Jailbreak Prompts Generation against LLMs [13.54228868302755]
ArrAttackは、防衛された大規模言語モデル(LLM)をターゲットにした攻撃方法である。
ArrAttackは、様々な防御措置をバイパスできる堅牢なジェイルブレイクプロンプトを自動的に生成する。
私たちの仕事は、ジェイルブレイク攻撃と防衛のギャップを埋め、堅牢なジェイルブレイクプロンプトを生成するための新たな視点を提供します。
論文 参考訳(メタデータ) (2025-05-23T08:02:38Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - FlexLLM: Exploring LLM Customization for Moving Target Defense on Black-Box LLMs Against Jailbreak Attacks [7.31505609352525]
大規模言語モデル(LLM)の防衛は、有害なコンテンツを生成するためにこれらのシステムを利用する多数の攻撃者に対抗するために不可欠である。
モデルロバスト性を高めるために、デコードハイパーパラメータを変更する移動目標防御手法を提案する。
以上の結果から,テストした3つのモデルのうち,我々の防衛は脱獄攻撃に対して最も効果的であることが示された。
論文 参考訳(メタデータ) (2024-12-10T17:02:28Z) - Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment [97.38766396447369]
訓練時安全アライメントにもかかわらず、Multimodal Large Language Models (MLLM) はジェイルブレイク攻撃に対して脆弱である。
我々は,ジェイルブレイク攻撃に対する防御のために,制御復号化による安全な報酬モデルを活用する推論時防御フレームワークImmuneを提案する。
論文 参考訳(メタデータ) (2024-11-27T19:00:10Z) - Prefix Guidance: A Steering Wheel for Large Language Models to Defend Against Jailbreak Attacks [27.11523234556414]
我々は,プリフィックスガイダンス(PG)という,プラグアンドプレイで容易に配置可能なジェイルブレイク防御フレームワークを提案する。
PGは、モデルの出力の最初の数個のトークンを直接設定することで、有害なプロンプトを特定するようモデルに誘導する。
3つのモデルと5つの攻撃方法におけるPGの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-15T14:51:32Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - AutoDefense: Multi-Agent LLM Defense against Jailbreak Attacks [20.5016054418053]
AutoDefenseは、大規模な言語モデルから有害な応答をフィルタリングするマルチエージェントディフェンスフレームワークである。
私たちのフレームワークは、異なるJailbreak攻撃プロンプトに対して堅牢であり、異なる犠牲者モデルを保護するために使用できます。
論文 参考訳(メタデータ) (2024-03-02T16:52:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。