論文の概要: One-Shot is Enough: Consolidating Multi-Turn Attacks into Efficient Single-Turn Prompts for LLMs
- arxiv url: http://arxiv.org/abs/2503.04856v1
- Date: Thu, 06 Mar 2025 07:34:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:24:36.406940
- Title: One-Shot is Enough: Consolidating Multi-Turn Attacks into Efficient Single-Turn Prompts for LLMs
- Title(参考訳): ワンショットは十分です。LLM用高効率シングルTurn PromptへのマルチTurnアタックの統合
- Authors: Junwoo Ha, Hyunjun Kim, Sangyoon Yu, Haon Park, Ashkan Yousefpour, Yuna Park, Suhyun Kim,
- Abstract要約: 本稿では,マルチターンジェイルブレイクプロンプトを単一ターン攻撃に変換するM2S(Multi-turn-to-Single-turn)という新しい手法を提案する。
実験の結果、M2Sは元来のマルチターン会話に比べて高い攻撃成功率(ASR)を増大または維持することが示された。
- 参考スコア(独自算出の注目度): 8.91993614197627
- License:
- Abstract: Despite extensive safety enhancements in large language models (LLMs), multi-turn "jailbreak" conversations crafted by skilled human adversaries can still breach even the most sophisticated guardrails. However, these multi-turn attacks demand considerable manual effort, limiting their scalability. In this work, we introduce a novel approach called Multi-turn-to-Single-turn (M2S) that systematically converts multi-turn jailbreak prompts into single-turn attacks. Specifically, we propose three conversion strategies - Hyphenize, Numberize, and Pythonize - each preserving sequential context yet packaging it in a single query. Our experiments on the Multi-turn Human Jailbreak (MHJ) dataset show that M2S often increases or maintains high Attack Success Rates (ASRs) compared to original multi-turn conversations. Notably, using a StrongREJECT-based evaluation of harmfulness, M2S achieves up to 95.9% ASR on Mistral-7B and outperforms original multi-turn prompts by as much as 17.5% in absolute improvement on GPT-4o. Further analysis reveals that certain adversarial tactics, when consolidated into a single prompt, exploit structural formatting cues to evade standard policy checks. These findings underscore that single-turn attacks - despite being simpler and cheaper to conduct - can be just as potent, if not more, than their multi-turn counterparts. Our findings underscore the urgent need to reevaluate and reinforce LLM safety strategies, given how adversarial queries can be compacted into a single prompt while still retaining sufficient complexity to bypass existing safety measures.
- Abstract(参考訳): 大きな言語モデル(LLM)の広範な安全性向上にもかかわらず、熟練した人間の敵によって作られたマルチターンの「ジェイルブレイク」会話は、最も洗練されたガードレールでさえも破ることができる。
しかし、これらのマルチターン攻撃は、スケーラビリティを制限し、かなりの手作業を必要とする。
本研究では,マルチターンジェイルブレイクプロンプトを単一ターン攻撃に変換するM2S(Multi-turn-to-Single-turn)という新しい手法を提案する。
具体的には,Hyphenize,Numberize,Pythonizeの3つの変換戦略を提案する。
マルチターンヒューマン・ジェイルブレイク(MHJ)データセットを用いた実験により、M2Sは元のマルチターン会話と比較して高い攻撃成功率(ASR)を増大または維持することが示された。
特に、StrongREJECTによる有害性の評価を用いて、M2SはMistral-7B上で95.9%のASRを達成し、GPT-4oの絶対改善で17.5%も元のマルチターンプロンプトを上回っている。
さらなる分析により、ある敵の戦術が単一のプロンプトに統合されると、構造的フォーマット手法を利用して標準ポリシーチェックを回避していることが明らかとなった。
これらの調査結果は、シングルターン攻撃は、よりシンプルでより安価であるにもかかわらず、マルチターン攻撃と同程度に強力な可能性があることを裏付けている。
既存の安全対策を回避するのに十分な複雑さを保ちながら、敵対的クエリを単一のプロンプトにコンパクト化する方法を考えると、LCMの安全性戦略の再評価と強化を急務に必要としていることは明らかである。
関連論文リスト
- Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Universal Adversarial Attack on Aligned Multimodal LLMs [1.5146068448101746]
マルチモーダル大規模言語モデル(LLM)に対する普遍的敵攻撃を提案する。
私たちは、ターゲットとするフレーズや、その他の安全でないコンテンツでモデルに応答するよう強制する合成画像を作成します。
コードとデータセットはApache-2.0ライセンスでリリースします。
論文 参考訳(メタデータ) (2025-02-11T22:07:47Z) - Siren: A Learning-Based Multi-Turn Attack Framework for Simulating Real-World Human Jailbreak Behaviors [12.550678408719756]
本研究では,実世界の人間のジェイルブレイク行動のシミュレーションを目的とした,学習に基づくマルチターン攻撃フレームワークを提案する。
実験の結果、サイレンはLLaMA-3-8Bを攻撃者として90%の攻撃成功率(ASR)を達成した。
我々は、サイレンが先進的な多ターンジェイルブレイク攻撃に対するより強力な防御の開発を促すことを願っている。
論文 参考訳(メタデータ) (2025-01-24T05:31:27Z) - Jigsaw Puzzles: Splitting Harmful Questions to Jailbreak Large Language Models [50.89022445197919]
大規模言語モデル(LLM)は、人間との関わりにおいて卓越した性能を示した。
LLMは脱獄攻撃に弱いため、有害な反応が生じる。
我々は,高度LLMに対する単純かつ効果的なマルチターンジェイルブレイク戦略であるJigsaw Puzzles (JSP)を提案する。
論文 参考訳(メタデータ) (2024-10-15T10:07:15Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - RED QUEEN: Safeguarding Large Language Models against Concealed
Multi-Turn Jailbreaking [30.67803190789498]
我々は,害の防止という目的の下に悪意のある意図を隠蔽し,マルチターンシナリオを構築する新しいジェイルブレイク手法RED QUEEN ATTACKを提案する。
我々の実験によると、全てのLLMはRED QUEEN ATTACKに対して脆弱であり、GPT-4oで87.62%、Llama3-70Bで75.4%に達する。
安全を優先するために, RED QUEEN GUARDと呼ばれる簡単な緩和戦略を導入する。
論文 参考訳(メタデータ) (2024-09-26T01:24:17Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。