論文の概要: AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models
- arxiv url: http://arxiv.org/abs/2511.02376v1
- Date: Tue, 04 Nov 2025 08:56:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.863508
- Title: AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models
- Title(参考訳): AutoAdv: 大規模言語モデルのマルチターンジェイルブレークのための自動逆転プロンプト
- Authors: Aashray Reddy, Andrew Zagula, Nicholas Saban,
- Abstract要約: AutoAdvは、自動マルチターンジェイルブレイクのためのトレーニング不要のフレームワークである。
Llama-3.1-8Bの攻撃成功率は最大95%に達する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) remain vulnerable to jailbreaking attacks where adversarial prompts elicit harmful outputs, yet most evaluations focus on single-turn interactions while real-world attacks unfold through adaptive multi-turn conversations. We present AutoAdv, a training-free framework for automated multi-turn jailbreaking that achieves up to 95% attack success rate on Llama-3.1-8B within six turns a 24 percent improvement over single turn baselines. AutoAdv uniquely combines three adaptive mechanisms: a pattern manager that learns from successful attacks to enhance future prompts, a temperature manager that dynamically adjusts sampling parameters based on failure modes, and a two-phase rewriting strategy that disguises harmful requests then iteratively refines them. Extensive evaluation across commercial and open-source models (GPT-4o-mini, Qwen3-235B, Mistral-7B) reveals persistent vulnerabilities in current safety mechanisms, with multi-turn attacks consistently outperforming single-turn approaches. These findings demonstrate that alignment strategies optimized for single-turn interactions fail to maintain robustness across extended conversations, highlighting an urgent need for multi-turn-aware defenses.
- Abstract(参考訳): 大規模言語モデル(LLM)は、敵対者が有害なアウトプットを誘発するジェイルブレイク攻撃に対して脆弱なままであるが、ほとんどの評価は、適応的なマルチターン会話を通じて現実の攻撃が展開する一方、シングルターンインタラクションに焦点を当てている。
我々は、Llama-3.1-8Bで最大95%の攻撃成功率を達成する自動マルチターンジェイルブレイクのためのトレーニングフリーフレームワークであるAutoAdvを、6つのターンベースラインで24%改善する。
AutoAdvは、将来のプロンプトを強化するために成功した攻撃から学習するパターンマネージャ、障害モードに基づいてサンプリングパラメータを動的に調整する温度マネージャ、有害なリクエストを偽装して反復的に改善する2段階の書き換え戦略の3つを独自に組み合わせている。
商用およびオープンソースモデル(GPT-4o-mini、Qwen3-235B、Mistral-7B)にわたる広範囲な評価は、現在の安全性メカニズムにおける永続的な脆弱性を明らかにし、マルチターン攻撃はシングルターンアプローチを一貫して上回る。
これらの結果から,シングルターンインタラクションに最適化されたアライメント戦略は,多ターン・アウェア・ディフェンス(マルチターン・アウェア・ディフェンス)の緊急の必要性を浮き彫りにした。
関連論文リスト
- PLAGUE: Plug-and-play framework for Lifelong Adaptive Generation of Multi-turn Exploits [0.12744523252873352]
PLAGUEは、生涯学習エージェントにインスパイアされたマルチターン攻撃を設計するためのプラグイン・アンド・プレイフレームワークである。
PLAGUEは、最先端のジェイルブレイクの結果を達成し、主要なモデル間で攻撃成功率(ASR)を30%以上改善することを示す。
論文 参考訳(メタデータ) (2025-10-20T17:37:03Z) - Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks [63.803415430308114]
現在の大規模言語モデルは、マルチターンインタラクション設定における敵攻撃に対して脆弱である。
本研究では,木探索と統合したオンライン強化学習フレームワークであるDialTree-RPOを提案する。
提案手法は,従来の最先端手法と比較して,10のターゲットモデルに対して25.9%以上のASRを実現している。
論文 参考訳(メタデータ) (2025-10-02T17:57:05Z) - AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の脆弱性を示し続けている。
本稿では,敵対的即時生成を自動化する新しいフレームワークであるAutoAdvを紹介する。
我々の攻撃は、有害なコンテンツ生成に対して最大86%のジェイルブレイク成功率を達成したことを示す。
論文 参考訳(メタデータ) (2025-04-18T08:38:56Z) - Strategize Globally, Adapt Locally: A Multi-Turn Red Teaming Agent with Dual-Level Learning [39.931442440365444]
AlgNameは、補完的な学習次元を通じて高度な人間の攻撃者をエミュレートする、新しい赤チームエージェントである。
AlgNameは、エージェントが新しいジェイルブレイク戦術を特定し、ゴールベースの戦術選択フレームワークを開発し、選択した戦術の迅速な定式化を洗練できるようにする。
JailbreakBenchに関する実証的な評価は、我々のフレームワークの優れた性能を示し、GPT-3.5-Turbo と Llama-3.1-70B に対する攻撃成功率の90%以上を、5つの会話ターンで達成した。
論文 参考訳(メタデータ) (2025-04-02T01:06:19Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models [62.12822290276912]
Auto-RTは、複雑な攻撃戦略を探索し最適化する強化学習フレームワークである。
探索効率を大幅に改善し、攻撃戦略を自動的に最適化することにより、Auto-RTはボーダの脆弱性範囲を検出し、検出速度が速く、既存の方法と比較して16.63%高い成功率を達成する。
論文 参考訳(メタデータ) (2025-01-03T14:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。