論文の概要: NEXUS: Network Exploration for eXploiting Unsafe Sequences in Multi-Turn LLM Jailbreaks
- arxiv url: http://arxiv.org/abs/2510.03417v1
- Date: Fri, 03 Oct 2025 18:24:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.032011
- Title: NEXUS: Network Exploration for eXploiting Unsafe Sequences in Multi-Turn LLM Jailbreaks
- Title(参考訳): NEXUS:マルチTurn LLMジェイルブレークにおけるeXploiting Unsafe Sequenceのためのネットワーク探索
- Authors: Javad Rafiei Asl, Sidhant Narula, Mohammad Ghasemigol, Eduardo Blanco, Daniel Takabi,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、ジェイルブレイク攻撃には弱いままである。
NEXUSは、最適化されたマルチターン攻撃の構築、精錬、実行のためのモジュラーフレームワークである。
- 参考スコア(独自算出の注目度): 8.210113765535338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have revolutionized natural language processing but remain vulnerable to jailbreak attacks, especially multi-turn jailbreaks that distribute malicious intent across benign exchanges and bypass alignment mechanisms. Existing approaches often explore the adversarial space poorly, rely on hand-crafted heuristics, or lack systematic query refinement. We present NEXUS (Network Exploration for eXploiting Unsafe Sequences), a modular framework for constructing, refining, and executing optimized multi-turn attacks. NEXUS comprises: (1) ThoughtNet, which hierarchically expands a harmful intent into a structured semantic network of topics, entities, and query chains; (2) a feedback-driven Simulator that iteratively refines and prunes these chains through attacker-victim-judge LLM collaboration using harmfulness and semantic-similarity benchmarks; and (3) a Network Traverser that adaptively navigates the refined query space for real-time attacks. This pipeline uncovers stealthy, high-success adversarial paths across LLMs. On several closed-source and open-source LLMs, NEXUS increases attack success rate by 2.1% to 19.4% over prior methods. Code: https://github.com/inspire-lab/NEXUS
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、Jailbreak攻撃、特に良質な交換やバイパスアライメント機構に悪意のある意図を分散するマルチターンジェイルブレイクに弱いままである。
既存のアプローチは、しばしば敵空間をよく探索し、手作りのヒューリスティックに頼り、体系的なクエリの洗練を欠いている。
NEXUS(Network Exploration for eXploiting Unsafe Sequences)は、最適化されたマルチターン攻撃の構築、精錬、実行のためのモジュラーフレームワークである。
NEXUSは,(1)トピック,エンティティ,クエリチェーンの構造化されたセマンティックネットワークに有害な意図を階層的に拡張するThoughtNet,(2)有害性とセマンティックな類似性ベンチマークを用いて,攻撃者によるLCMコラボレーションを通じて,これらのチェーンを反復的に洗練・改善するフィードバック駆動シミュレータ,(3)リアルタイムアタックのために洗練されたクエリ空間を適応的にナビゲートするネットワークトラバーサから構成される。
このパイプラインは、LSMにまたがるステルスで高度な敵パスを明らかにする。
いくつかのオープンソースLLMでは、NEXUSは攻撃成功率を2.1%から19.4%に引き上げている。
コード:https://github.com/inspire-lab/NEXUS
関連論文リスト
- GRAF: Multi-turn Jailbreaking via Global Refinement and Active Fabrication [55.63412213263305]
大規模言語モデルは、悪意のある目的のために誤用される可能性があるため、顕著な安全性のリスクを生じさせる。
そこで本研究では,各インタラクションにおける攻撃経路をグローバルに洗練する,新しいマルチターンジェイルブレーキング手法を提案する。
さらに、モデル応答を積極的に作成し、安全性に関する警告を抑えることにより、有害な出力を誘発する可能性を高める。
論文 参考訳(メタデータ) (2025-06-22T03:15:05Z) - SequentialBreak: Large Language Models Can be Fooled by Embedding Jailbreak Prompts into Sequential Prompt Chains [0.0]
本稿では,大規模言語モデル(LLM)の脆弱性を利用した新しいジェイルブレイク攻撃であるSequentialBreakを紹介する。
問題バンク,ダイアログ補完,ゲーム環境などの事例に限らず,有害なプロンプトをLCMを騙して有害な応答を発生させる良質なプロンプトに埋め込む,いくつかのシナリオについて論じる。
大規模な実験では、SequentialBreakは単一のクエリしか使用せず、攻撃成功率を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-11-10T11:08:28Z) - h4rm3l: A language for Composable Jailbreak Attack Synthesis [48.5611060845958]
h4rm3lは、人間が読めるドメイン固有言語とのギャップに対処する新しいアプローチである。
我々は、h4rm3lの合成攻撃は、文献における既存のジェイルブレイク攻撃よりも多様で、より成功していることを示す。
論文 参考訳(メタデータ) (2024-08-09T01:45:39Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。