論文の概要: Knowledge-Driven Multi-Turn Jailbreaking on Large Language Models
- arxiv url: http://arxiv.org/abs/2601.05445v1
- Date: Fri, 09 Jan 2026 00:27:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.798141
- Title: Knowledge-Driven Multi-Turn Jailbreaking on Large Language Models
- Title(参考訳): 大規模言語モデルによる知識駆動型マルチターンジェイルブレーク
- Authors: Songze Li, Ruishi He, Xiaojun Jia, Jun Wang, Zhihui Fu,
- Abstract要約: 大規模言語モデル(LLM)は、マルチターンジェイルブレイク攻撃による重大な脅威に直面している。
動的で自己改善的なアプローチを採用したマルチターンジェイルブレイクフレームワークであるMastermindを紹介します。
我々は, GPT-5 や Claude 3.7 Sonnet を含む最先端モデルに対する総合的な実験を行った。
- 参考スコア(独自算出の注目度): 33.30628603365359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) face a significant threat from multi-turn jailbreak attacks, where adversaries progressively steer conversations to elicit harmful outputs. However, the practical effectiveness of existing attacks is undermined by several critical limitations: they struggle to maintain a coherent progression over long interactions, often losing track of what has been accomplished and what remains to be done; they rely on rigid or pre-defined patterns, and fail to adapt to the LLM's dynamic and unpredictable conversational state. To address these shortcomings, we introduce Mastermind, a multi-turn jailbreak framework that adopts a dynamic and self-improving approach. Mastermind operates in a closed loop of planning, execution, and reflection, enabling it to autonomously build and refine its knowledge of model vulnerabilities through interaction. It employs a hierarchical planning architecture that decouples high-level attack objectives from low-level tactical execution, ensuring long-term focus and coherence. This planning is guided by a knowledge repository that autonomously discovers and refines effective attack patterns by reflecting on interactive experiences. Mastermind leverages this accumulated knowledge to dynamically recombine and adapt attack vectors, dramatically improving both effectiveness and resilience. We conduct comprehensive experiments against state-of-the-art models, including GPT-5 and Claude 3.7 Sonnet. The results demonstrate that Mastermind significantly outperforms existing baselines, achieving substantially higher attack success rates and harmfulness ratings. Moreover, our framework exhibits notable resilience against multiple advanced defense mechanisms.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多ターンジェイルブレイク攻撃による重大な脅威に直面している。
しかし、既存の攻撃の実践的効果は、長期にわたる相互作用に対する一貫性のある進行を維持するのに苦労し、達成されたことや実行すべきことの追跡を失うこと、厳密なパターンや事前定義されたパターンに依存すること、LLMの動的で予測不可能な会話状態に適応できないことなど、いくつかの重要な制限によって損なわれている。
これらの欠点に対処するために、動的で自己改善的なアプローチを採用したマルチターンジェイルブレイクフレームワークであるMastermindを紹介します。
Mastermindは計画、実行、リフレクションのクローズドループで動作し、対話を通じてモデル脆弱性に関する知識を自律的に構築し、洗練することができる。
高レベルの攻撃目標を低レベルの戦術実行から切り離し、長期的な焦点と一貫性を確保する階層的な計画アーキテクチャを採用している。
この計画は、対話的な経験を反映して効果的な攻撃パターンを自律的に発見し、洗練する知識リポジトリによって導かれる。
Mastermindは、この蓄積した知識を利用して攻撃ベクトルを動的に再結合し、適応し、有効性とレジリエンスの両方を劇的に改善する。
我々は, GPT-5 や Claude 3.7 Sonnet を含む最先端モデルに対する総合的な実験を行った。
その結果,Mastermindは既存のベースラインを著しく上回り,攻撃成功率と有害度評価を著しく向上させることがわかった。
さらに, 本フレームワークは, 複数の先進防衛機構に対して顕著なレジリエンスを示す。
関連論文リスト
- PLAGUE: Plug-and-play framework for Lifelong Adaptive Generation of Multi-turn Exploits [0.12744523252873352]
PLAGUEは、生涯学習エージェントにインスパイアされたマルチターン攻撃を設計するためのプラグイン・アンド・プレイフレームワークである。
PLAGUEは、最先端のジェイルブレイクの結果を達成し、主要なモデル間で攻撃成功率(ASR)を30%以上改善することを示す。
論文 参考訳(メタデータ) (2025-10-20T17:37:03Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。