論文の概要: MTSA: Multi-turn Safety Alignment for LLMs through Multi-round Red-teaming
- arxiv url: http://arxiv.org/abs/2505.17147v1
- Date: Thu, 22 May 2025 08:22:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.609898
- Title: MTSA: Multi-turn Safety Alignment for LLMs through Multi-round Red-teaming
- Title(参考訳): MTSA:マルチラウンドレッドチームによるLCMのマルチターン安全アライメント
- Authors: Weiyang Guo, Jing Li, Wenya Wang, YU LI, Daojing He, Jun Yu, Min Zhang,
- Abstract要約: textbfMulti-textbfTurn textbfSafety textbfAlignment (urapproach)フレームワーク。
レッドチームモデルは、敵のプロンプトを生成するために、思考誘導型マルチラウンドジェイルブレイク攻撃について学習する。
敵の反復最適化ステージ、レッドチームモデル、ターゲットモデルは、相互作用におけるそれぞれの能力を継続的に改善します。
- 参考スコア(独自算出の注目度): 38.25556351567948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of jailbreak attacks against large language models (LLMs) highlights the need for robust security measures. However, in multi-round dialogues, malicious intentions may be hidden in interactions, leading LLMs to be more prone to produce harmful responses. In this paper, we propose the \textbf{M}ulti-\textbf{T}urn \textbf{S}afety \textbf{A}lignment (\ourapproach) framework, to address the challenge of securing LLMs in multi-round interactions. It consists of two stages: In the thought-guided attack learning stage, the red-team model learns about thought-guided multi-round jailbreak attacks to generate adversarial prompts. In the adversarial iterative optimization stage, the red-team model and the target model continuously improve their respective capabilities in interaction. Furthermore, we introduce a multi-turn reinforcement learning algorithm based on future rewards to enhance the robustness of safety alignment. Experimental results show that the red-team model exhibits state-of-the-art attack capabilities, while the target model significantly improves its performance on safety benchmarks.
- Abstract(参考訳): 大規模言語モデル(LLM)に対するジェイルブレイク攻撃の急増は、堅牢なセキュリティ対策の必要性を強調している。
しかし、複数ラウンドの対話では、悪意のある意図が相互作用の中に隠されているため、LSMは有害な反応を生じやすい。
本稿では,マルチラウンドインタラクションにおけるLLMの確保という課題に対処するため,textbf{M}ulti-\textbf{T}urn \textbf{S}afety \textbf{A}lignment (\ourapproach) フレームワークを提案する。
思考誘導型攻撃学習段階では、赤チームは思考誘導型マルチラウンドジェイルブレイク攻撃について学習し、敵のプロンプトを生成する。
対向的反復最適化の段階では、レッドチームモデルとターゲットモデルは相互作用におけるそれぞれの能力を継続的に改善します。
さらに,安全アライメントの堅牢性を高めるために,将来的な報奨に基づくマルチターン強化学習アルゴリズムを導入する。
実験結果から,レッドチームモデルは最先端の攻撃能力を示し,ターゲットモデルは安全性ベンチマークの性能を著しく向上させることがわかった。
関連論文リスト
- MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Towards Robust Multimodal Large Language Models Against Jailbreak Attacks [24.491648943977605]
本稿では,敵対的雑音を発生させる攻撃ステップとモデル更新ステップとを交互に行うSafeMLLMを紹介する。
攻撃ステップでは、SafeMLLMは新たに提案されたコントラスト埋め込み攻撃(CoE-Attack)を通じて敵の摂動を発生させる。
我々は,SafeMLLMを6つのMLLMと6つのジェイルブレイク法で比較した。
論文 参考訳(メタデータ) (2025-02-02T03:45:49Z) - SEAS: Self-Evolving Adversarial Safety Optimization for Large Language Models [19.486685336959482]
大規模言語モデル(LLM)は能力と影響力を向上し続け、セキュリティを確保し、有害な出力を防ぐことが重要になっている。
これらの問題に対処するための有望なアプローチは、レッドチームのための敵のプロンプトを自動的に生成するトレーニングモデルである。
本稿では,モデル自体が生成したデータを活用することで,セキュリティを向上させるための最適化フレームワークであるmathbfStextelf-mathbfEtextvolving mathbfAtextdversarial mathbfStextafetyety mathbf(SEAS)について紹介する。
論文 参考訳(メタデータ) (2024-08-05T16:55:06Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。