論文の概要: HarmNet: A Framework for Adaptive Multi-Turn Jailbreak Attacks on Large Language Models
- arxiv url: http://arxiv.org/abs/2510.18728v1
- Date: Tue, 21 Oct 2025 15:28:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.828192
- Title: HarmNet: A Framework for Adaptive Multi-Turn Jailbreak Attacks on Large Language Models
- Title(参考訳): HarmNet: 大規模言語モデル上での適応型マルチターンジェイルブレーク攻撃のためのフレームワーク
- Authors: Sidhant Narula, Javad Rafiei Asl, Mohammad Ghasemigol, Eduardo Blanco, Daniel Takabi,
- Abstract要約: 大規模言語モデル(LLM)は、マルチターンジェイルブレイク攻撃に対して脆弱なままである。
HarmNetは階層型セマンティックネットワークであるThoughtNetで構成されるモジュラーフレームワークである。
HarmNetは、ステルスで高精度な攻撃経路を明らかにするために、敵空間を体系的に探索し、洗練する。
- 参考スコア(独自算出の注目度): 8.210113765535338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) remain vulnerable to multi-turn jailbreak attacks. We introduce HarmNet, a modular framework comprising ThoughtNet, a hierarchical semantic network; a feedback-driven Simulator for iterative query refinement; and a Network Traverser for real-time adaptive attack execution. HarmNet systematically explores and refines the adversarial space to uncover stealthy, high-success attack paths. Experiments across closed-source and open-source LLMs show that HarmNet outperforms state-of-the-art methods, achieving higher attack success rates. For example, on Mistral-7B, HarmNet achieves a 99.4% attack success rate, 13.9% higher than the best baseline. Index terms: jailbreak attacks; large language models; adversarial framework; query refinement.
- Abstract(参考訳): 大規模言語モデル(LLM)は、マルチターンジェイルブレイク攻撃に対して脆弱なままである。
本稿では,階層型セマンティックネットワークであるThoughtNetと,反復型クエリリファインメントのためのフィードバック駆動型シミュレータと,リアルタイム適応型アタック実行のためのNetwork Traverserを組み合わせたモジュール型フレームワークであるHarmNetを紹介する。
HarmNetは、ステルスで高精度な攻撃経路を明らかにするために、敵空間を体系的に探索し、洗練する。
クローズドソースとオープンソース LLM の実験では、HarmNet が最先端の手法より優れており、攻撃の成功率が高いことが示されている。
例えば、Mistral-7Bでは、HarmNetは99.4%の攻撃成功率で、最高のベースラインよりも13.9%高い。
インデックス用語:ジェイルブレイク攻撃、大きな言語モデル、敵フレームワーク、クエリ改善。
関連論文リスト
- NEXUS: Network Exploration for eXploiting Unsafe Sequences in Multi-Turn LLM Jailbreaks [8.210113765535338]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、ジェイルブレイク攻撃には弱いままである。
NEXUSは、最適化されたマルチターン攻撃の構築、精錬、実行のためのモジュラーフレームワークである。
論文 参考訳(メタデータ) (2025-10-03T18:24:14Z) - GuardNet: Graph-Attention Filtering for Jailbreak Defense in Large Language Models [5.550877102788988]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の影響を受けやすくなっている。
これらの攻撃はLLM出力の安全性、信頼性、信頼性を損なう。
推論に先立ってjailbreakプロンプトを検出しフィルタする階層的なフィルタリングフレームワークであるGuardNetを提案する。
論文 参考訳(メタデータ) (2025-09-27T01:21:12Z) - MetaCipher: A Time-Persistent and Universal Multi-Agent Framework for Cipher-Based Jailbreak Attacks for LLMs [14.530593083777502]
低コストでマルチエージェントのジェイルブレイクフレームワークであるMetaCipherを提案する。
わずか10クエリで、MetaCipherは最近の悪意のあるプロンプトベンチマークで最先端の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-06-27T18:15:56Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - RED QUEEN: Safeguarding Large Language Models against Concealed Multi-Turn Jailbreaking [28.95203269961824]
我々は,害の防止という目的の下に悪意のある意図を隠蔽し,マルチターンシナリオを構築する新しいジェイルブレイク手法RED QUEEN ATTACKを提案する。
我々の実験によると、全てのLLMはRED QUEEN ATTACKに対して脆弱であり、GPT-4oで87.62%、Llama3-70Bで75.4%に達する。
安全を優先するために, RED QUEEN GUARDと呼ばれる簡単な緩和戦略を導入する。
論文 参考訳(メタデータ) (2024-09-26T01:24:17Z) - Weak-to-Strong Jailbreaking on Large Language Models [92.52448762164926]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。