論文の概要: X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents
- arxiv url: http://arxiv.org/abs/2504.13203v1
- Date: Tue, 15 Apr 2025 16:11:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 21:07:10.556792
- Title: X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents
- Title(参考訳): X-Teaming: 適応型マルチエージェントによるマルチターンジェイルブレークとディフェンス
- Authors: Salman Rahman, Liwei Jiang, James Shiffer, Genglin Liu, Sheriff Issaka, Md Rizwan Parvez, Hamid Palangi, Kai-Wei Chang, Yejin Choi, Saadia Gabriel,
- Abstract要約: X-Teamingは、一見無害な相互作用が有害な結果へとエスカレートし、対応する攻撃シナリオを生成するフレームワークである。
X-Teamingは最新のClaude 3.7 Sonnetモデルに対して96.2%の攻撃成功率を達成した。
XGuard-Trainは、オープンソースのマルチターン安全トレーニングデータセットで、前回のベストリソースの20倍大きい。
- 参考スコア(独自算出の注目度): 80.6836084998329
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-turn interactions with language models (LMs) pose critical safety risks, as harmful intent can be strategically spread across exchanges. Yet, the vast majority of prior work has focused on single-turn safety, while adaptability and diversity remain among the key challenges of multi-turn red-teaming. To address these challenges, we present X-Teaming, a scalable framework that systematically explores how seemingly harmless interactions escalate into harmful outcomes and generates corresponding attack scenarios. X-Teaming employs collaborative agents for planning, attack optimization, and verification, achieving state-of-the-art multi-turn jailbreak effectiveness and diversity with success rates up to 98.1% across representative leading open-weight and closed-source models. In particular, X-Teaming achieves a 96.2% attack success rate against the latest Claude 3.7 Sonnet model, which has been considered nearly immune to single-turn attacks. Building on X-Teaming, we introduce XGuard-Train, an open-source multi-turn safety training dataset that is 20x larger than the previous best resource, comprising 30K interactive jailbreaks, designed to enable robust multi-turn safety alignment for LMs. Our work offers essential tools and insights for mitigating sophisticated conversational attacks, advancing the multi-turn safety of LMs.
- Abstract(参考訳): 言語モデル(LM)とのマルチターン相互作用は、有害な意図が取引所全体に戦略的に広がるため、重大な安全リスクをもたらす。
しかしながら、以前の作業の大部分はシングルターンの安全性に重点を置いている一方で、適応性と多様性は、マルチターンのレッドチームの重要な課題のひとつだ。
これらの課題に対処するため、X-Teamingは、一見無害な相互作用が有害な結果にどのようにエスカレートし、対応する攻撃シナリオを生成するかを体系的に調査するスケーラブルなフレームワークである。
X-Teamingは、計画、攻撃の最適化、検証、最先端のマルチターンジェイルブレイクの有効性、そして成功率98.1%の多様性を達成するために、主要なオープンソースモデルとクローズドソースモデルに協力的なエージェントを採用している。
特に、X-Teamingは最新のClaude 3.7 Sonnetモデルに対して96.2%の攻撃成功率を達成した。
X-Teaming上に構築されたXGuard-Trainは,LMの堅牢なマルチターン安全性アライメントを実現するために設計された30Kの対話型ジェイルブレイクを含む,前回のベストリソースの20倍のオープンソースのマルチターン安全性トレーニングデータセットである。
我々の研究は、高度な会話攻撃を緩和し、LMのマルチターン安全性を向上するために必要なツールと洞察を提供する。
関連論文リスト
- Strategize Globally, Adapt Locally: A Multi-Turn Red Teaming Agent with Dual-Level Learning [39.931442440365444]
AlgNameは、補完的な学習次元を通じて高度な人間の攻撃者をエミュレートする、新しい赤チームエージェントである。
AlgNameは、エージェントが新しいジェイルブレイク戦術を特定し、ゴールベースの戦術選択フレームワークを開発し、選択した戦術の迅速な定式化を洗練できるようにする。
JailbreakBenchに関する実証的な評価は、我々のフレームワークの優れた性能を示し、GPT-3.5-Turbo と Llama-3.1-70B に対する攻撃成功率の90%以上を、5つの会話ターンで達成した。
論文 参考訳(メタデータ) (2025-04-02T01:06:19Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Derail Yourself: Multi-turn LLM Jailbreak Attack through Self-discovered Clues [88.96201324719205]
本研究では,マルチターンインタラクションにおけるLarge Language Models(LLM)の安全性の脆弱性を明らかにする。
本稿ではアクターネットワーク理論に触発された新しいマルチターン攻撃手法であるActorAttackを紹介する。
論文 参考訳(メタデータ) (2024-10-14T16:41:49Z) - Multi-Turn Context Jailbreak Attack on Large Language Models From First Principles [2.5167155755957316]
コンテキスト・フュージョン・アタック (Context Fusion Attack, CFA) は、コンテキスト・フュージョン・ブラックボックス・ジェイルブレイク・アタックの手法である。
また,他の多ターン攻撃戦略と比較して,CFAの成功率,ばらつき,有害性を示す。
論文 参考訳(メタデータ) (2024-08-08T09:18:47Z) - DiveR-CT: Diversity-enhanced Red Teaming Large Language Model Assistants with Relaxing Constraints [68.82294911302579]
DiveR-CTを導入し、目的と意味の報酬に対する従来の制約を緩和し、多様性を高める政策により大きな自由を与える。
実験では,1)様々な攻撃成功率の多様な多様性指標において優れたデータを生成すること,2)収集したデータに基づく安全性チューニングによる青チームモデルのレジリエンスの向上,3)信頼性と制御可能な攻撃成功率に対する目標重みの動的制御,3)報酬過大化に対する感受性の低下など,ベースラインよりも優れたDiveR-CTの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2024-05-29T12:12:09Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Multi-granular Adversarial Attacks against Black-box Neural Ranking Models [111.58315434849047]
多粒性摂動を取り入れた高品質な逆数例を作成する。
我々は,多粒体攻撃を逐次的意思決定プロセスに変換する。
本手法は,攻撃の有効性と非受容性の両方において,一般的なベースラインを超えている。
論文 参考訳(メタデータ) (2024-04-02T02:08:29Z) - Evolving Diverse Red-team Language Models in Multi-round Multi-agent Games [11.873513881458747]
Redチームは、Large Language Model(LLM)を攻撃して脆弱性を特定できる。
現在の取り組みは、単一ラウンドのプロンプト設計と、固定ブルーチームに対する一方的なレッドチームの最適化に大きく依存しています。
ここでは、レッドチームとブルーチーム間のマルチラウンド攻撃的および防御的相互作用を分析するために、動的レッドチームゲーム(RTG)を紹介します。
論文 参考訳(メタデータ) (2023-09-30T09:35:50Z) - Robust multi-agent coordination via evolutionary generation of auxiliary
adversarial attackers [23.15190337027283]
副次的攻撃者生成によるロバスト多エージェント協調(ROMANCE)を提案する。
ROMANCEは、訓練中に多種多様で強力な補助的敵攻撃に遭遇することを可能にし、様々な政策摂動の下で高い堅牢性を達成する。
品質の目標は、エゴシステムのコーディネーション効果を最小限に抑えることであり、攻撃者間の振る舞いを多様化するために、新しい多様性レギュレータを適用することである。
論文 参考訳(メタデータ) (2023-05-10T05:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。