論文の概要: PLAGUE: Plug-and-play framework for Lifelong Adaptive Generation of Multi-turn Exploits
- arxiv url: http://arxiv.org/abs/2510.17947v1
- Date: Mon, 20 Oct 2025 17:37:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.429991
- Title: PLAGUE: Plug-and-play framework for Lifelong Adaptive Generation of Multi-turn Exploits
- Title(参考訳): PLAGUE:マルチターン爆発の生涯適応生成のためのプラグイン・アンド・プレイフレームワーク
- Authors: Neeladri Bhuiya, Madhav Aggarwal, Diptanshu Purwar,
- Abstract要約: PLAGUEは、生涯学習エージェントにインスパイアされたマルチターン攻撃を設計するためのプラグイン・アンド・プレイフレームワークである。
PLAGUEは、最先端のジェイルブレイクの結果を達成し、主要なモデル間で攻撃成功率(ASR)を30%以上改善することを示す。
- 参考スコア(独自算出の注目度): 0.12744523252873352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are improving at an exceptional rate. With the advent of agentic workflows, multi-turn dialogue has become the de facto mode of interaction with LLMs for completing long and complex tasks. While LLM capabilities continue to improve, they remain increasingly susceptible to jailbreaking, especially in multi-turn scenarios where harmful intent can be subtly injected across the conversation to produce nefarious outcomes. While single-turn attacks have been extensively explored, adaptability, efficiency and effectiveness continue to remain key challenges for their multi-turn counterparts. To address these gaps, we present PLAGUE, a novel plug-and-play framework for designing multi-turn attacks inspired by lifelong-learning agents. PLAGUE dissects the lifetime of a multi-turn attack into three carefully designed phases (Primer, Planner and Finisher) that enable a systematic and information-rich exploration of the multi-turn attack family. Evaluations show that red-teaming agents designed using PLAGUE achieve state-of-the-art jailbreaking results, improving attack success rates (ASR) by more than 30% across leading models in a lesser or comparable query budget. Particularly, PLAGUE enables an ASR (based on StrongReject) of 81.4% on OpenAI's o3 and 67.3% on Claude's Opus 4.1, two models that are considered highly resistant to jailbreaks in safety literature. Our work offers tools and insights to understand the importance of plan initialization, context optimization and lifelong learning in crafting multi-turn attacks for a comprehensive model vulnerability evaluation.
- Abstract(参考訳): 大きな言語モデル(LLM)は、例外的な速度で改善されています。
エージェントワークフローの出現に伴い、マルチターン対話はLLMとの相互作用の事実上のモードとなり、長い複雑なタスクを完了した。
LLMの能力は改善され続けていますが、特に有害な意図を会話中に微妙に注入して悪質な結果をもたらすマルチターンシナリオでは、ジェイルブレイクの影響を受けやすくなっています。
シングルターン攻撃は広く検討されているが、適応性、効率、有効性は、マルチターン攻撃にとって重要な課題であり続けている。
これらのギャップに対処するために,生涯学習エージェントにインスパイアされたマルチターンアタックを設計するための新しいプラグイン・アンド・プレイフレームワークPLAGUEを提案する。
PLAGUEは、マルチターン攻撃の生涯を、3つの慎重に設計されたフェーズ(Primer、Planner、Finisher)に分け、マルチターン攻撃ファミリーの体系的かつ情報豊富な探索を可能にする。
PLAGUEを用いて設計されたレッドチームエージェントは、最先端のジェイルブレイクの結果を達成し、より少ないあるいは同等のクエリ予算で、主要なモデル間で攻撃成功率(ASR)を30%以上改善している。
特にPLAGUEは、OpenAIのo3で81.4%、ClaudeのOpus 4.1で67.3%のASRを許可している。
我々の研究は、包括的モデル脆弱性評価のためのマルチターン攻撃の作成において、計画初期化、文脈最適化、生涯学習の重要性を理解するためのツールと洞察を提供する。
関連論文リスト
- X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents [76.66287343106204]
X-Teamingは、一見無害な相互作用が有害な結果へとエスカレートし、対応する攻撃シナリオを生成するフレームワークである。
X-Teamingは最新のClaude 3.7 Sonnetモデルに対して96.2%の攻撃成功率を達成した。
XGuard-Trainは、オープンソースのマルチターン安全トレーニングデータセットで、前回のベストリソースの20倍大きい。
論文 参考訳(メタデータ) (2025-04-15T16:11:28Z) - Strategize Globally, Adapt Locally: A Multi-Turn Red Teaming Agent with Dual-Level Learning [39.931442440365444]
AlgNameは、補完的な学習次元を通じて高度な人間の攻撃者をエミュレートする、新しい赤チームエージェントである。
AlgNameは、エージェントが新しいジェイルブレイク戦術を特定し、ゴールベースの戦術選択フレームワークを開発し、選択した戦術の迅速な定式化を洗練できるようにする。
JailbreakBenchに関する実証的な評価は、我々のフレームワークの優れた性能を示し、GPT-3.5-Turbo と Llama-3.1-70B に対する攻撃成功率の90%以上を、5つの会話ターンで達成した。
論文 参考訳(メタデータ) (2025-04-02T01:06:19Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [50.980446687774645]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。