論文の概要: HarmNet: A Framework for Adaptive Multi-Turn Jailbreak Attacks on Large Language Models
- arxiv url: http://arxiv.org/abs/2510.18728v1
- Date: Tue, 21 Oct 2025 15:28:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.828192
- Title: HarmNet: A Framework for Adaptive Multi-Turn Jailbreak Attacks on Large Language Models
- Title(参考訳): HarmNet: 大規模言語モデル上での適応型マルチターンジェイルブレーク攻撃のためのフレームワーク
- Authors: Sidhant Narula, Javad Rafiei Asl, Mohammad Ghasemigol, Eduardo Blanco, Daniel Takabi,
- Abstract要約: 大規模言語モデル(LLM)は、マルチターンジェイルブレイク攻撃に対して脆弱なままである。
HarmNetは階層型セマンティックネットワークであるThoughtNetで構成されるモジュラーフレームワークである。
HarmNetは、ステルスで高精度な攻撃経路を明らかにするために、敵空間を体系的に探索し、洗練する。
- 参考スコア(独自算出の注目度): 8.210113765535338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) remain vulnerable to multi-turn jailbreak attacks. We introduce HarmNet, a modular framework comprising ThoughtNet, a hierarchical semantic network; a feedback-driven Simulator for iterative query refinement; and a Network Traverser for real-time adaptive attack execution. HarmNet systematically explores and refines the adversarial space to uncover stealthy, high-success attack paths. Experiments across closed-source and open-source LLMs show that HarmNet outperforms state-of-the-art methods, achieving higher attack success rates. For example, on Mistral-7B, HarmNet achieves a 99.4% attack success rate, 13.9% higher than the best baseline. Index terms: jailbreak attacks; large language models; adversarial framework; query refinement.
- Abstract(参考訳): 大規模言語モデル(LLM)は、マルチターンジェイルブレイク攻撃に対して脆弱なままである。
本稿では,階層型セマンティックネットワークであるThoughtNetと,反復型クエリリファインメントのためのフィードバック駆動型シミュレータと,リアルタイム適応型アタック実行のためのNetwork Traverserを組み合わせたモジュール型フレームワークであるHarmNetを紹介する。
HarmNetは、ステルスで高精度な攻撃経路を明らかにするために、敵空間を体系的に探索し、洗練する。
クローズドソースとオープンソース LLM の実験では、HarmNet が最先端の手法より優れており、攻撃の成功率が高いことが示されている。
例えば、Mistral-7Bでは、HarmNetは99.4%の攻撃成功率で、最高のベースラインよりも13.9%高い。
インデックス用語:ジェイルブレイク攻撃、大きな言語モデル、敵フレームワーク、クエリ改善。
関連論文リスト
- RL-MTJail: Reinforcement Learning for Automated Black-Box Multi-Turn Jailbreaking of Large Language Models [60.201244463046784]
大規模な言語モデルは、ジェイルブレイク攻撃に弱い。
本稿では,ブラックボックスのマルチターンジェイルブレイクについて検討し,ブラックボックスモデルから有害なコンテンツを引き出すように攻撃者のLDMを訓練することを目的とした。
論文 参考訳(メタデータ) (2025-12-08T17:42:59Z) - NEXUS: Network Exploration for eXploiting Unsafe Sequences in Multi-Turn LLM Jailbreaks [8.210113765535338]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、ジェイルブレイク攻撃には弱いままである。
NEXUSは、最適化されたマルチターン攻撃の構築、精錬、実行のためのモジュラーフレームワークである。
論文 参考訳(メタデータ) (2025-10-03T18:24:14Z) - GuardNet: Graph-Attention Filtering for Jailbreak Defense in Large Language Models [5.550877102788988]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の影響を受けやすくなっている。
これらの攻撃はLLM出力の安全性、信頼性、信頼性を損なう。
推論に先立ってjailbreakプロンプトを検出しフィルタする階層的なフィルタリングフレームワークであるGuardNetを提案する。
論文 参考訳(メタデータ) (2025-09-27T01:21:12Z) - Response Attack: Exploiting Contextual Priming to Jailbreak Large Language Models [17.860698041523918]
初期の刺激が後続の判断を隠蔽する文脈プライミングは、大言語モデル(LLM)に対する未探索の攻撃面を提供する。
本稿では、補助LDMを用いて、元の悪意のあるクエリのパラフレーズ付きバージョンに対して、軽度に有害な応答を生成するレスポンスアタックを提案する。
RAは7つの最先端のジェイルブレイクテクニックを一貫して上回り、より高い攻撃成功率を達成している。
論文 参考訳(メタデータ) (2025-07-07T17:56:05Z) - MetaCipher: A Time-Persistent and Universal Multi-Agent Framework for Cipher-Based Jailbreak Attacks for LLMs [14.530593083777502]
低コストでマルチエージェントのジェイルブレイクフレームワークであるMetaCipherを提案する。
わずか10クエリで、MetaCipherは最近の悪意のあるプロンプトベンチマークで最先端の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-06-27T18:15:56Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、あるジェイルブレイクがテキストの配布で起こりそうなかどうかをチェックします。
私たちはこの脅威モデルに人気のある攻撃を適応させ、これらの攻撃を同等の足場でベンチマークしました。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - RED QUEEN: Safeguarding Large Language Models against Concealed Multi-Turn Jailbreaking [28.95203269961824]
我々は,害の防止という目的の下に悪意のある意図を隠蔽し,マルチターンシナリオを構築する新しいジェイルブレイク手法RED QUEEN ATTACKを提案する。
我々の実験によると、全てのLLMはRED QUEEN ATTACKに対して脆弱であり、GPT-4oで87.62%、Llama3-70Bで75.4%に達する。
安全を優先するために, RED QUEEN GUARDと呼ばれる簡単な緩和戦略を導入する。
論文 参考訳(メタデータ) (2024-09-26T01:24:17Z) - h4rm3l: A language for Composable Jailbreak Attack Synthesis [48.5611060845958]
h4rm3lは、人間が読めるドメイン固有言語とのギャップに対処する新しいアプローチである。
我々は、h4rm3lの合成攻撃は、文献における既存のジェイルブレイク攻撃よりも多様で、より成功していることを示す。
論文 参考訳(メタデータ) (2024-08-09T01:45:39Z) - Weak-to-Strong Jailbreaking on Large Language Models [92.52448762164926]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。