論文の概要: Pattern Enhanced Multi-Turn Jailbreaking: Exploiting Structural Vulnerabilities in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.08859v1
- Date: Thu, 09 Oct 2025 23:26:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.892056
- Title: Pattern Enhanced Multi-Turn Jailbreaking: Exploiting Structural Vulnerabilities in Large Language Models
- Title(参考訳): パターン強化マルチターンジェイルブレーク:大規模言語モデルにおける構造的脆弱性の爆発
- Authors: Ragib Amin Nihal, Rui Wen, Kazuhiro Nakadai, Jun Sakuma,
- Abstract要約: マルチターンジェイルブレイク攻撃は、異なる会話アプローチによって異なる害カテゴリーをターゲットにしている。
自然な対話を通して効果的なマルチターンジェイルブレイクを構築するために,PE-CoA(Pattern Enhanced Chain of Attack)を提案する。
- 参考スコア(独自算出の注目度): 9.744463020852615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) remain vulnerable to multi-turn jailbreaking attacks that exploit conversational context to bypass safety constraints gradually. These attacks target different harm categories (like malware generation, harassment, or fraud) through distinct conversational approaches (educational discussions, personal experiences, hypothetical scenarios). Existing multi-turn jailbreaking methods often rely on heuristic or ad hoc exploration strategies, providing limited insight into underlying model weaknesses. The relationship between conversation patterns and model vulnerabilities across harm categories remains poorly understood. We propose Pattern Enhanced Chain of Attack (PE-CoA), a framework of five conversation patterns to construct effective multi-turn jailbreaks through natural dialogue. Evaluating PE-CoA on twelve LLMs spanning ten harm categories, we achieve state-of-the-art performance, uncovering pattern-specific vulnerabilities and LLM behavioral characteristics: models exhibit distinct weakness profiles where robustness to one conversational pattern does not generalize to others, and model families share similar failure modes. These findings highlight limitations of safety training and indicate the need for pattern-aware defenses. Code available on: https://github.com/Ragib-Amin-Nihal/PE-CoA
- Abstract(参考訳): 大規模言語モデル(LLM)は、会話のコンテキストを利用して安全制約を徐々に回避するマルチターンジェイルブレイク攻撃に対して脆弱なままである。
これらの攻撃は、異なる会話的アプローチ(教育的議論、個人的な経験、仮説的シナリオ)を通じて、異なる有害カテゴリー(マルウェアの生成、ハラスメント、詐欺など)をターゲットにしている。
既存のマルチターンジェイルブレイク手法は、しばしばヒューリスティックまたはアドホックな探索戦略に依存し、基礎となるモデルの弱点について限られた洞察を与える。
有害カテゴリー間の会話パターンとモデル脆弱性の関係はいまだよく分かっていない。
自然な対話を通して効果的なマルチターンジェイルブレイクを構築するための5つの会話パターンの枠組みであるPE-CoA(Pattern Enhanced Chain of Attack)を提案する。
10の有害カテゴリにまたがる12のLLM上のPE-CoAの評価を行い、パターン固有の脆弱性とLCMの動作特性を明らかにする。
これらの知見は、安全訓練の限界を強調し、パターン認識防御の必要性を示している。
https://github.com/Ragib-Amin-Nihal/PE-CoA
関連論文リスト
- Jailbreaking Large Language Models through Iterative Tool-Disguised Attacks via Reinforcement Learning [26.571996871795154]
iMIST (underlineinteractive underlineMulti-step underlineProgreunderlinessive underlineTool-disguised Jailbreak Attack) は、現在の防御機構の脆弱性を利用する新しい適応型ジェイルブレイク手法である。
広く使われているモデルの実験では、iMISTは低い拒絶率を維持しながら高い攻撃効果を発揮することが示された。
論文 参考訳(メタデータ) (2026-01-09T01:41:39Z) - GAMBIT: A Gamified Jailbreak Framework for Multimodal Large Language Models [16.68943715789759]
本稿では,ゲーム勝利の一環として,探索,意図の再構築,回答を行うモデルを駆動する新しいフレームワークを提案する。
GAMBITは高い攻撃成功率(ASR)を達成し、Gemini 2.5 Flashで92.13%、QvQ-MAXで91.20%、GPT-4oで85.87%に達した。
論文 参考訳(メタデータ) (2026-01-06T21:09:10Z) - Automating Deception: Scalable Multi-Turn LLM Jailbreaks [0.7212939068975618]
フット・イン・ザ・ドア(FITD)のような心理的原理を活用する多ターン会話攻撃は、大規模言語モデル(LLM)に永続的な脅威をもたらす。
本稿では,大規模で心理的なマルチターンジェイルブレイクデータセットを生成するための,新しい自動パイプラインを提案する。
マルチターン(歴史のない)とシングルターン(歴史のない)の条件下で,3つのLLMファミリーから7つのモデルを評価する。
論文 参考訳(メタデータ) (2025-11-24T03:15:11Z) - Sequential Comics for Jailbreaking Multimodal Large Language Models via Structured Visual Storytelling [11.939828002077482]
MLLM(Multimodal large language model)は、優れた能力を示すが、ジェイルブレイク攻撃の影響を受けない。
本研究では,最新のMLLMにおける安全アライメントを回避するために,連続的な漫画スタイルの視覚的物語を活用する新しい手法を提案する。
攻撃成功率は平均83.5%であり, 先行技術の46%を突破した。
論文 参考訳(メタデータ) (2025-10-16T18:30:26Z) - GRAF: Multi-turn Jailbreaking via Global Refinement and Active Fabrication [55.63412213263305]
大規模言語モデルは、悪意のある目的のために誤用される可能性があるため、顕著な安全性のリスクを生じさせる。
そこで本研究では,各インタラクションにおける攻撃経路をグローバルに洗練する,新しいマルチターンジェイルブレーキング手法を提案する。
さらに、モデル応答を積極的に作成し、安全性に関する警告を抑えることにより、有害な出力を誘発する可能性を高める。
論文 参考訳(メタデータ) (2025-06-22T03:15:05Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Reformulation is All You Need: Addressing Malicious Text Features in DNNs [53.45564571192014]
本稿では,敵攻撃とバックドア攻撃の両方に対して有効な,統一的かつ適応的な防御フレームワークを提案する。
我々のフレームワークは、様々な悪意あるテキスト機能において、既存のサンプル指向の防御基準よりも優れています。
論文 参考訳(メタデータ) (2025-02-02T03:39:43Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Jailbreaking? One Step Is Enough! [6.142918017301964]
大規模言語モデル(LLM)は様々なタスクで優れるが、敵が有害な出力を生成するプロンプトを操作するジェイルブレイク攻撃に弱いままである。
本稿では,攻撃意図を「防御」意図と偽装するリバース・エンベッドド・ディフェンス・アタック(REDA)機構を提案する。
モデルの「防御的」意図における信頼性とガイダンスを高めるため、少数の攻撃例を含む文脈内学習(ICL)を採用する。
論文 参考訳(メタデータ) (2024-12-17T07:33:41Z) - Multi-Turn Context Jailbreak Attack on Large Language Models From First Principles [2.5167155755957316]
コンテキスト・フュージョン・アタック (Context Fusion Attack, CFA) は、コンテキスト・フュージョン・ブラックボックス・ジェイルブレイク・アタックの手法である。
また,他の多ターン攻撃戦略と比較して,CFAの成功率,ばらつき,有害性を示す。
論文 参考訳(メタデータ) (2024-08-08T09:18:47Z) - FuzzLLM: A Novel and Universal Fuzzing Framework for Proactively Discovering Jailbreak Vulnerabilities in Large Language Models [11.517609196300217]
FuzzLLMは,大規模言語モデル(LLM)におけるジェイルブレイク脆弱性を積極的にテストし,発見するために設計された,自動ファジリングフレームワークである。
テンプレートを使用してプロンプトの構造的整合性をキャプチャし、制約としてJailbreakクラスの重要な特徴を分離します。
異なるベースクラスを強力なコンボ攻撃に統合し、制約や禁止された質問の要素を変更することで、FazLLMは手作業の少ない効率的なテストを可能にする。
論文 参考訳(メタデータ) (2023-09-11T07:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。