論文の概要: Strategize Globally, Adapt Locally: A Multi-Turn Red Teaming Agent with Dual-Level Learning
- arxiv url: http://arxiv.org/abs/2504.01278v1
- Date: Wed, 02 Apr 2025 01:06:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:22:25.642655
- Title: Strategize Globally, Adapt Locally: A Multi-Turn Red Teaming Agent with Dual-Level Learning
- Title(参考訳): グローバルに戦略化, ローカルに適応: デュアルレベル学習を備えたマルチターンレッドチームエージェント
- Authors: Si Chen, Xiao Yu, Ninareh Mehrabi, Rahul Gupta, Zhou Yu, Ruoxi Jia,
- Abstract要約: AlgNameは、補完的な学習次元を通じて高度な人間の攻撃者をエミュレートする、新しい赤チームエージェントである。
AlgNameは、エージェントが新しいジェイルブレイク戦術を特定し、ゴールベースの戦術選択フレームワークを開発し、選択した戦術の迅速な定式化を洗練できるようにする。
JailbreakBenchに関する実証的な評価は、我々のフレームワークの優れた性能を示し、GPT-3.5-Turbo と Llama-3.1-70B に対する攻撃成功率の90%以上を、5つの会話ターンで達成した。
- 参考スコア(独自算出の注目度): 39.931442440365444
- License:
- Abstract: The exploitation of large language models (LLMs) for malicious purposes poses significant security risks as these models become more powerful and widespread. While most existing red-teaming frameworks focus on single-turn attacks, real-world adversaries typically operate in multi-turn scenarios, iteratively probing for vulnerabilities and adapting their prompts based on threat model responses. In this paper, we propose \AlgName, a novel multi-turn red-teaming agent that emulates sophisticated human attackers through complementary learning dimensions: global tactic-wise learning that accumulates knowledge over time and generalizes to new attack goals, and local prompt-wise learning that refines implementations for specific goals when initial attempts fail. Unlike previous multi-turn approaches that rely on fixed strategy sets, \AlgName enables the agent to identify new jailbreak tactics, develop a goal-based tactic selection framework, and refine prompt formulations for selected tactics. Empirical evaluations on JailbreakBench demonstrate our framework's superior performance, achieving over 90\% attack success rates against GPT-3.5-Turbo and Llama-3.1-70B within 5 conversation turns, outperforming state-of-the-art baselines. These results highlight the effectiveness of dynamic learning in identifying and exploiting model vulnerabilities in realistic multi-turn scenarios.
- Abstract(参考訳): 悪意のある目的のために大規模言語モデル(LLM)を悪用することは、これらのモデルがより強力で広く普及するにつれて、重大なセキュリティリスクを引き起こす。
既存のレッドチームフレームワークの多くはシングルターン攻撃に重点を置いているが、現実の敵は通常、マルチターンシナリオで運用され、脆弱性を反復的に調査し、脅威モデル応答に基づいてプロンプトを適用する。
本稿では,時間とともに知識を蓄積し,新たな攻撃目標に一般化するグローバル戦術的学習と,初期試行の失敗時に特定の目標に対する実装を洗練するローカル・プロンプト的学習という,高度な人間の攻撃者を補完的な学習次元でエミュレートする新しいマルチターン・リピート・エージェントである \AlgNameを提案する。
固定された戦略セットに依存する従来のマルチターンアプローチとは異なり、 \AlgNameはエージェントが新しいジェイルブレイク戦術を特定し、ゴールベースの戦術選択フレームワークを開発し、選択した戦術の迅速な定式化を洗練できるようにする。
JailbreakBenchに関する実証的な評価は、GPT-3.5-TurboとLlama-3.1-70Bに対して90%以上の攻撃成功率を達成し、我々のフレームワークの優れた性能を示し、最先端のベースラインを上回る結果となった。
これらの結果は,現実的なマルチターンシナリオにおけるモデル脆弱性の特定と活用における動的学習の有効性を強調した。
関連論文リスト
- Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models [62.12822290276912]
Auto-RTは、複雑な攻撃戦略を探索し最適化する強化学習フレームワークである。
探索効率を大幅に改善し、攻撃戦略を自動的に最適化することにより、Auto-RTはボーダの脆弱性範囲を検出し、検出速度が速く、既存の方法と比較して16.63%高い成功率を達成する。
論文 参考訳(メタデータ) (2025-01-03T14:30:14Z) - Sustainable Self-evolution Adversarial Training [51.25767996364584]
対戦型防衛モデルのための持続的自己進化支援訓練(SSEAT)フレームワークを提案する。
本研究は,様々な種類の対角的事例から学習を実現するために,連続的な対向防衛パイプラインを導入する。
また,より多様で重要な再学習データを選択するために,逆データ再生モジュールを提案する。
論文 参考訳(メタデータ) (2024-12-03T08:41:11Z) - Holistic Automated Red Teaming for Large Language Models through Top-Down Test Case Generation and Multi-turn Interaction [24.499874512829198]
本研究では, 対角的, きめ細かなリスク分類に基づいて, テストケースの多様性を拡大する自動紅茶造法を提案する。
提案手法は,新しい微調整戦略と強化学習技術を活用し,人的手法で多ターン探索を容易にする。
論文 参考訳(メタデータ) (2024-09-25T09:44:48Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - Group-based Robustness: A General Framework for Customized Robustness in
the Real World [16.376584375681812]
対象とするロバスト度を計測する従来の指標は、あるソースクラスから別のターゲットクラスへの攻撃に耐えるモデルの能力を適切に反映していないことが分かりました。
我々は、既存のメトリクスを補完し、特定の攻撃シナリオにおけるモデル性能を評価するのに適した新しい指標であるグループベースロバストネスを提案する。
同様の成功率で、新たな損失関数を用いた回避サンプルの発見は、対象とするクラスの数に匹敵する程度に削減できることが示される。
論文 参考訳(メタデータ) (2023-06-29T01:07:12Z) - Beyond CAGE: Investigating Generalization of Learned Autonomous Network
Defense Policies [0.8785883427835897]
本研究は,CAGEチャレンジの第2版で実施された強化学習アプローチを評価する。
アンサンブルRL技術は,我々の他のモデルより優れ,競争において第2位である。
目に見えない環境では、我々のアプローチはすべて悪化し、環境の変化のタイプによって様々な劣化が生じます。
論文 参考訳(メタデータ) (2022-11-28T17:01:24Z) - Resisting Deep Learning Models Against Adversarial Attack
Transferability via Feature Randomization [17.756085566366167]
本研究では,ディープラーニングモデルを対象とした8つの敵攻撃に抵抗する特徴ランダム化に基づく手法を提案する。
本手法は,標的ネットワークを確保でき,敵の攻撃伝達可能性に対して60%以上抵抗することができる。
論文 参考訳(メタデータ) (2022-09-11T20:14:12Z) - LAS-AT: Adversarial Training with Learnable Attack Strategy [82.88724890186094]
LAS-ATと呼ばれる「学習可能な攻撃戦略」は、モデル堅牢性を改善するための攻撃戦略を自動生成することを学ぶ。
当社のフレームワークは,強靭性向上のためのトレーニングにAEを使用するターゲットネットワークと,AE生成を制御するための攻撃戦略を生成する戦略ネットワークで構成されている。
論文 参考訳(メタデータ) (2022-03-13T10:21:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。