論文の概要: SafeTy Reasoning Elicitation Alignment for Multi-Turn Dialogues
- arxiv url: http://arxiv.org/abs/2506.00668v1
- Date: Sat, 31 May 2025 18:38:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.665426
- Title: SafeTy Reasoning Elicitation Alignment for Multi-Turn Dialogues
- Title(参考訳): マルチターン対話のためのSafeTy Reasoning Elicitation Asignment
- Authors: Martin Kuo, Jianyi Zhang, Aolin Ding, Louis DiValentin, Amin Hass, Benjamin F Morris, Isaac Jacobson, Randolph Linderman, James Kiessling, Nicolas Ramos, Bhavna Gopal, Maziyar Baran Pouyan, Changwei Liu, Hai Li, Yiran Chen,
- Abstract要約: 悪意のある攻撃者は、大きな言語モデル(LLM)をマルチターン対話で利用することができる。
マルチTurnダイアログ(STREAM)のためのSafeTy Reasoning Elicitation Alignmentという新しい防御機構を提案する。
- 参考スコア(独自算出の注目度): 9.762621950740995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Malicious attackers can exploit large language models (LLMs) by engaging them in multi-turn dialogues to achieve harmful objectives, posing significant safety risks to society. To address this challenge, we propose a novel defense mechanism: SafeTy Reasoning Elicitation Alignment for Multi-Turn Dialogues (STREAM). STREAM defends LLMs against multi-turn attacks while preserving their functional capabilities. Our approach involves constructing a human-annotated dataset, the Safety Reasoning Multi-turn Dialogues dataset, which is used to fine-tune a plug-and-play safety reasoning moderator. This model is designed to identify malicious intent hidden within multi-turn conversations and alert the target LLM of potential risks. We evaluate STREAM across multiple LLMs against prevalent multi-turn attack strategies. Experimental results demonstrate that our method significantly outperforms existing defense techniques, reducing the Attack Success Rate (ASR) by 51.2%, all while maintaining comparable LLM capability.
- Abstract(参考訳): 悪意ある攻撃者は、大きな言語モデル(LLM)を多ターン対話で利用して有害な目的を達成することができ、社会に重大な安全リスクをもたらす。
この課題に対処するため, TEEAM (SafeTy Reasoning Elicitation Alignment for Multi-Turn Dialogues) という新しい防御機構を提案する。
STREAMはLLMを多ターン攻撃に対して防御し、その機能を維持する。
我々のアプローチは、プラグアンドプレイの安全推論モデレータを微調整するために使用される、人間による注釈付きデータセットであるSafety Reasoning Multi-turn Dialoguesデータセットを構築することである。
このモデルは、マルチターン会話の中に隠された悪意のある意図を特定し、潜在的なリスクをターゲットのLSMに警告するように設計されている。
複数のLSMをまたいだSTREAMを多ターン攻撃戦略に対して評価する。
実験の結果,本手法は既存の防御技術よりも優れており,攻撃成功率(ASR)は51.2%低下し,LLM能力は同等であった。
関連論文リスト
- Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Chain of Attack: a Semantic-Driven Contextual Multi-Turn attacker for LLM [27.046944831084776]
大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて顕著な性能を発揮している。
CoAは、アタックポリシーを適応的に調整する意味駆動型コンテキスト型マルチターンアタック手法である。
我々は、CoAがLLMの脆弱性を効果的に暴露し、既存の攻撃方法より優れていることを示す。
論文 参考訳(メタデータ) (2024-05-09T08:15:21Z) - Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。
我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。
7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z) - Speak Out of Turn: Safety Vulnerability of Large Language Models in Multi-turn Dialogue [10.101013733390532]
大規模言語モデル(LLM)は、違法または非倫理的な応答を生成することが実証されている。
本稿では,人間は多ターン対話を利用してLSMを誘導し,有害な情報を生成することができると論じる。
論文 参考訳(メタデータ) (2024-02-27T07:11:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。