論文の概要: Pattern Enhanced Multi-Turn Jailbreaking: Exploiting Structural Vulnerabilities in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.08859v1
- Date: Thu, 09 Oct 2025 23:26:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.892056
- Title: Pattern Enhanced Multi-Turn Jailbreaking: Exploiting Structural Vulnerabilities in Large Language Models
- Title(参考訳): パターン強化マルチターンジェイルブレーク:大規模言語モデルにおける構造的脆弱性の爆発
- Authors: Ragib Amin Nihal, Rui Wen, Kazuhiro Nakadai, Jun Sakuma,
- Abstract要約: マルチターンジェイルブレイク攻撃は、異なる会話アプローチによって異なる害カテゴリーをターゲットにしている。
自然な対話を通して効果的なマルチターンジェイルブレイクを構築するために,PE-CoA(Pattern Enhanced Chain of Attack)を提案する。
- 参考スコア(独自算出の注目度): 9.744463020852615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) remain vulnerable to multi-turn jailbreaking attacks that exploit conversational context to bypass safety constraints gradually. These attacks target different harm categories (like malware generation, harassment, or fraud) through distinct conversational approaches (educational discussions, personal experiences, hypothetical scenarios). Existing multi-turn jailbreaking methods often rely on heuristic or ad hoc exploration strategies, providing limited insight into underlying model weaknesses. The relationship between conversation patterns and model vulnerabilities across harm categories remains poorly understood. We propose Pattern Enhanced Chain of Attack (PE-CoA), a framework of five conversation patterns to construct effective multi-turn jailbreaks through natural dialogue. Evaluating PE-CoA on twelve LLMs spanning ten harm categories, we achieve state-of-the-art performance, uncovering pattern-specific vulnerabilities and LLM behavioral characteristics: models exhibit distinct weakness profiles where robustness to one conversational pattern does not generalize to others, and model families share similar failure modes. These findings highlight limitations of safety training and indicate the need for pattern-aware defenses. Code available on: https://github.com/Ragib-Amin-Nihal/PE-CoA
- Abstract(参考訳): 大規模言語モデル(LLM)は、会話のコンテキストを利用して安全制約を徐々に回避するマルチターンジェイルブレイク攻撃に対して脆弱なままである。
これらの攻撃は、異なる会話的アプローチ(教育的議論、個人的な経験、仮説的シナリオ)を通じて、異なる有害カテゴリー(マルウェアの生成、ハラスメント、詐欺など)をターゲットにしている。
既存のマルチターンジェイルブレイク手法は、しばしばヒューリスティックまたはアドホックな探索戦略に依存し、基礎となるモデルの弱点について限られた洞察を与える。
有害カテゴリー間の会話パターンとモデル脆弱性の関係はいまだよく分かっていない。
自然な対話を通して効果的なマルチターンジェイルブレイクを構築するための5つの会話パターンの枠組みであるPE-CoA(Pattern Enhanced Chain of Attack)を提案する。
10の有害カテゴリにまたがる12のLLM上のPE-CoAの評価を行い、パターン固有の脆弱性とLCMの動作特性を明らかにする。
これらの知見は、安全訓練の限界を強調し、パターン認識防御の必要性を示している。
https://github.com/Ragib-Amin-Nihal/PE-CoA
関連論文リスト
- Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Jailbreaking? One Step Is Enough! [6.142918017301964]
大規模言語モデル(LLM)は様々なタスクで優れるが、敵が有害な出力を生成するプロンプトを操作するジェイルブレイク攻撃に弱いままである。
本稿では,攻撃意図を「防御」意図と偽装するリバース・エンベッドド・ディフェンス・アタック(REDA)機構を提案する。
モデルの「防御的」意図における信頼性とガイダンスを高めるため、少数の攻撃例を含む文脈内学習(ICL)を採用する。
論文 参考訳(メタデータ) (2024-12-17T07:33:41Z) - Multi-Turn Context Jailbreak Attack on Large Language Models From First Principles [2.5167155755957316]
コンテキスト・フュージョン・アタック (Context Fusion Attack, CFA) は、コンテキスト・フュージョン・ブラックボックス・ジェイルブレイク・アタックの手法である。
また,他の多ターン攻撃戦略と比較して,CFAの成功率,ばらつき,有害性を示す。
論文 参考訳(メタデータ) (2024-08-08T09:18:47Z) - FuzzLLM: A Novel and Universal Fuzzing Framework for Proactively Discovering Jailbreak Vulnerabilities in Large Language Models [11.517609196300217]
FuzzLLMは,大規模言語モデル(LLM)におけるジェイルブレイク脆弱性を積極的にテストし,発見するために設計された,自動ファジリングフレームワークである。
テンプレートを使用してプロンプトの構造的整合性をキャプチャし、制約としてJailbreakクラスの重要な特徴を分離します。
異なるベースクラスを強力なコンボ攻撃に統合し、制約や禁止された質問の要素を変更することで、FazLLMは手作業の少ない効率的なテストを可能にする。
論文 参考訳(メタデータ) (2023-09-11T07:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。