論文の概要: ICON: Intent-Context Coupling for Efficient Multi-Turn Jailbreak Attack
- arxiv url: http://arxiv.org/abs/2601.20903v1
- Date: Wed, 28 Jan 2026 12:09:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.365041
- Title: ICON: Intent-Context Coupling for Efficient Multi-Turn Jailbreak Attack
- Title(参考訳): ICON: 効率的なマルチターンジェイルブレイク攻撃のためのインテントコンテキスト結合
- Authors: Xingwei Lin, Wenhao Lin, Sicong Cao, Jiahao Yu, Renke Huang, Lei Xue, Chunming Wu,
- Abstract要約: 大規模言語モデルにとって重要な脅威として、マルチターンジェイルブレイク攻撃が出現している。
我々は、権威的なコンテキストを効率的に構築する自動マルチターンジェイルブレイクフレームワークであるICONを提案する。
ICONは、最先端の平均攻撃成功率(ASR)97.1%を達成している。
- 参考スコア(独自算出の注目度): 11.574020639288356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-turn jailbreak attacks have emerged as a critical threat to Large Language Models (LLMs), bypassing safety mechanisms by progressively constructing adversarial contexts from scratch and incrementally refining prompts. However, existing methods suffer from the inefficiency of incremental context construction that requires step-by-step LLM interaction, and often stagnate in suboptimal regions due to surface-level optimization. In this paper, we characterize the Intent-Context Coupling phenomenon, revealing that LLM safety constraints are significantly relaxed when a malicious intent is coupled with a semantically congruent context pattern. Driven by this insight, we propose ICON, an automated multi-turn jailbreak framework that efficiently constructs an authoritative-style context via prior-guided semantic routing. Specifically, ICON first routes the malicious intent to a congruent context pattern (e.g., Scientific Research) and instantiates it into an attack prompt sequence. This sequence progressively builds the authoritative-style context and ultimately elicits prohibited content. In addition, ICON incorporates a Hierarchical Optimization Strategy that combines local prompt refinement with global context switching, preventing the attack from stagnating in ineffective contexts. Experimental results across eight SOTA LLMs demonstrate the effectiveness of ICON, achieving a state-of-the-art average Attack Success Rate (ASR) of 97.1\%. Code is available at https://github.com/xwlin-roy/ICON.
- Abstract(参考訳): マルチターンジェイルブレイク攻撃は大規模言語モデル(LLM)にとって重要な脅威として現れ、スクラッチから敵コンテキストを段階的に構築し、プロンプトを漸進的に精製することで、安全メカニズムを回避している。
しかし、既存の手法はステップバイステップのLCM相互作用を必要とするインクリメンタルコンテキスト構築の非効率性に悩まされ、表面レベルの最適化のため、しばしば準最適領域で停滞する。
本稿では,悪意のある意図と意味論的に一致したコンテキストパターンが組み合わさった場合,LLMの安全性の制約が著しく緩和されることを明らかにする。
この知見に基づいて、我々は、事前誘導されたセマンティックルーティングを通じて権威的なコンテキストを効率的に構築する自動マルチターンジェイルブレイクフレームワークであるICONを提案する。
具体的には、ICONはまず、悪意のある意図を連続したコンテキストパターン(例えばScientific Research)にルーティングし、それを攻撃プロンプトシーケンスにインスタンス化する。
このシーケンスは、徐々に権威的なスタイルのコンテキストを構築し、最終的に禁止されたコンテンツを引き出す。
さらに、ICONは、局所的なプロンプト改善とグローバルなコンテキスト切り替えを組み合わせた階層最適化戦略を導入し、非効率なコンテキストにおける攻撃の停滞を防ぐ。
8つのSOTA LLM実験の結果、ICONの有効性が示され、最先端の平均アタック成功率(ASR)は97.1\%である。
コードはhttps://github.com/xwlin-roy/ICON.comで入手できる。
関連論文リスト
- MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Jailbreaking LLMs Without Gradients or Priors: Effective and Transferable Attacks [22.52730333160258]
RAILSは,モデルロジットのみで動作するフレームワークである。
RAILSは勾配依存を排除し、クロストケナイザーアンサンブル攻撃を可能にする。
RAILSは、複数のオープンソースモデルで100%近い成功率と、GPTやGeminiのようなクローズドソースシステムへの高いブラックボックス攻撃転送性を実現している。
論文 参考訳(メタデータ) (2026-01-06T21:14:13Z) - Adversarial Attack-Defense Co-Evolution for LLM Safety Alignment via Tree-Group Dual-Aware Search and Optimization [51.12422886183246]
大規模言語モデル(LLM)は、Webサービスにおいて急速に発展し、社会的リスクを増幅しつつ、前例のない能力を提供してきた。
既存の作業は、分離されたジェイルブレイク攻撃または静的防御に重点を置いており、現実世界のWebコンテキストにおける進化する脅威とセーフガードの間の動的な相互作用を無視している。
ACE-Safetyは、2つの重要な革新的手順をシームレスに統合することにより、攻撃と防御モデルを協調的に最適化する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-11-24T15:23:41Z) - Temporal Context Awareness: A Defense Framework Against Multi-turn Manipulation Attacks on Large Language Models [0.0]
大規模言語モデル(LLM)は、高度なマルチターン操作攻撃に対してますます脆弱である。
本稿では,この課題に対処するための新しい防御機構であるテンポラルコンテキスト認識フレームワークを紹介する。
シミュレーションされた敵シナリオに関する予備的な評価は、微妙な操作パターンを識別するフレームワークの可能性を示している。
論文 参考訳(メタデータ) (2025-03-18T22:30:17Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。