論文の概要: MUSE: MCTS-Driven Red Teaming Framework for Enhanced Multi-Turn Dialogue Safety in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.14651v1
- Date: Thu, 18 Sep 2025 06:12:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.088822
- Title: MUSE: MCTS-Driven Red Teaming Framework for Enhanced Multi-Turn Dialogue Safety in Large Language Models
- Title(参考訳): MUSE:大規模言語モデルにおけるマルチスレッド対話の安全性向上のためのMCTS-Driven Red Teaming Framework
- Authors: Siyu Yan, Long Zeng, Xuecheng Wu, Chengcheng Han, Kongcheng Zhang, Chong Peng, Xuezhi Cao, Xunliang Cai, Chenjuan Guo,
- Abstract要約: 攻撃角と防御角の両方からマルチターンジェイルブレイクに対処する包括的フレームワークであるMUSEを紹介する。
攻撃に対して,フレームセマンティクスと木探索を用いて多種多様な意味軌道を探索するMUSE-Aを提案する。
MUSE-D(MUSE-D)は,対話の初期段階において脆弱性の軽減に介入する,きめ細かい安全アライメント手法である。
- 参考スコア(独自算出の注目度): 27.394752803478628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models~(LLMs) become widely adopted, ensuring their alignment with human values is crucial to prevent jailbreaks where adversaries manipulate models to produce harmful content. While most defenses target single-turn attacks, real-world usage often involves multi-turn dialogues, exposing models to attacks that exploit conversational context to bypass safety measures. We introduce MUSE, a comprehensive framework tackling multi-turn jailbreaks from both attack and defense angles. For attacks, we propose MUSE-A, a method that uses frame semantics and heuristic tree search to explore diverse semantic trajectories. For defense, we present MUSE-D, a fine-grained safety alignment approach that intervenes early in dialogues to reduce vulnerabilities. Extensive experiments on various models show that MUSE effectively identifies and mitigates multi-turn vulnerabilities. Code is available at \href{https://github.com/yansiyu02/MUSE}{https://github.com/yansiyu02/MUSE}.
- Abstract(参考訳): 大きな言語モデル~(LLM)が広く採用されるにつれて、敵が有害なコンテンツを生成するためにモデルを操作しているジェイルブレイクを防ぐために、人間の価値との整合性を確保することが重要である。
ほとんどの防衛はシングルターン攻撃を標的としているが、現実世界の使用は多ターン対話を伴い、安全対策をバイパスするために会話コンテキストを利用する攻撃に対してモデルを公開する。
攻撃角と防御角の両方からマルチターンジェイルブレイクに対処する包括的フレームワークであるMUSEを紹介する。
攻撃に対して,フレームセマンティクスとヒューリスティックツリー探索を用いて,多様なセマンティクスの軌跡を探索するMUSE-Aを提案する。
MUSE-D(MUSE-D)は,対話の初期段階において脆弱性の軽減に介入する,きめ細かい安全アライメント手法である。
様々なモデルに対する大規模な実験により、MUSEはマルチターン脆弱性を効果的に識別し軽減することが示された。
コードは \href{https://github.com/yansiyu02/MUSE}{https://github.com/yansiyu02/MUSE} で入手できる。
関連論文リスト
- Steering Dialogue Dynamics for Robustness against Multi-turn Jailbreaking Attacks [59.300698230887114]
大規模言語モデル(LLM)は、有害な応答を誘発するために敵のプロンプトが設計されたジェイルブレイク攻撃に対して脆弱であることが示されている。
安全制御理論に基づく安全ステアリングフレームワークを提案し,マルチターン対話における不変安全性を保証する。
論文 参考訳(メタデータ) (2025-02-28T21:10:03Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。