論文の概要: One-Shot is Enough: Consolidating Multi-Turn Attacks into Efficient Single-Turn Prompts for LLMs
- arxiv url: http://arxiv.org/abs/2503.04856v2
- Date: Mon, 26 May 2025 02:52:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:53.553293
- Title: One-Shot is Enough: Consolidating Multi-Turn Attacks into Efficient Single-Turn Prompts for LLMs
- Title(参考訳): ワンショットは十分です。LLM用高効率シングルTurn PromptへのマルチTurnアタックの統合
- Authors: Junwoo Ha, Hyunjun Kim, Sangyoon Yu, Haon Park, Ashkan Yousefpour, Yuna Park, Suhyun Kim,
- Abstract要約: 本稿では,マルチターン対逆ジェイルブレイクのプロンプトを単一ターンクエリに集約する新しいフレームワークを提案する。
マルチターン・ツー・シングルターン(M2S)手法は,多ターン対話を構造化シングルターンプロンプトに体系的に再構成する。
注目すべきは、シングルターンはオリジナルのマルチターン攻撃を最大17.5ポイント上回ったことである。
- 参考スコア(独自算出の注目度): 8.91993614197627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel framework for consolidating multi-turn adversarial ``jailbreak'' prompts into single-turn queries, significantly reducing the manual overhead required for adversarial testing of large language models (LLMs). While multi-turn human jailbreaks have been shown to yield high attack success rates, they demand considerable human effort and time. Our multi-turn-to-single-turn (M2S) methods -- Hyphenize, Numberize, and Pythonize -- systematically reformat multi-turn dialogues into structured single-turn prompts. Despite removing iterative back-and-forth interactions, these prompts preserve and often enhance adversarial potency: in extensive evaluations on the Multi-turn Human Jailbreak (MHJ) dataset, M2S methods achieve attack success rates from 70.6 percent to 95.9 percent across several state-of-the-art LLMs. Remarkably, the single-turn prompts outperform the original multi-turn attacks by as much as 17.5 percentage points while cutting token usage by more than half on average. Further analysis shows that embedding malicious requests in enumerated or code-like structures exploits ``contextual blindness'', bypassing both native guardrails and external input-output filters. By converting multi-turn conversations into concise single-turn prompts, the M2S framework provides a scalable tool for large-scale red teaming and reveals critical weaknesses in contemporary LLM defenses.
- Abstract(参考訳): 本稿では,マルチターン逆数 ``jailbreak'' プロンプトを単一ターンクエリに集約する新しいフレームワークを提案する。
マルチターンの人間のジェイルブレイクは高い攻撃の成功率をもたらすことが示されているが、彼らはかなりの努力と時間を必要としている。
私たちのマルチターン・ツー・シングル・ターン(M2S)メソッドであるHyphenize、Numberize、Pythonizeは、体系的にマルチターン対話を構造化シングルターンプロンプトに再構築します。
反復的なバック・フォース相互作用を排除したにもかかわらず、これらのプロンプトは敵の能力を維持し、しばしば強化する:MHJ(Multi-turn Human Jailbreak)データセットの広範な評価において、M2S法はいくつかの最先端のLCMにおいて70.6%から95.9%の攻撃成功率を達成する。
注目すべきは、シングルターンはオリジナルのマルチターン攻撃を最大17.5ポイント上回り、トークンの使用量を平均で半分以上削減する。
さらに分析した結果,列挙されたあるいはコードライクな構造に悪意のあるリクエストを埋め込むと,‘contextual blindness’’が悪用され,ネイティブガードレールと外部インプットアウトプットフィルタの両方をバイパスすることがわかった。
マルチターン会話を簡潔なシングルターンプロンプトに変換することで、M2Sフレームワークは大規模レッドチームのためのスケーラブルなツールを提供し、現代のLLM防御において重大な弱点を明らかにする。
関連論文リスト
- Foot-In-The-Door: A Multi-turn Jailbreak for LLMs [40.958137601841734]
主な課題はjailbreakで、敵はビルトインのセーフガードをバイパスして有害な出力を誘導する。
心理学的フット・イン・ザ・ドアの原則に着想を得て,新しいマルチターンジェイルブレイク法であるFITDを導入する。
提案手法は,中間的なブリッジプロンプトを通じてユーザクエリの悪意ある意図を段階的にエスカレートし,それ自身でモデル応答を調整し,有害な応答を誘導する。
論文 参考訳(メタデータ) (2025-02-27T06:49:16Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Siren: A Learning-Based Multi-Turn Attack Framework for Simulating Real-World Human Jailbreak Behaviors [12.550678408719756]
本研究では,実世界の人間のジェイルブレイク行動のシミュレーションを目的とした,学習に基づくマルチターン攻撃フレームワークを提案する。
実験の結果、サイレンはLLaMA-3-8Bを攻撃者として90%の攻撃成功率(ASR)を達成した。
我々は、サイレンが先進的な多ターンジェイルブレイク攻撃に対するより強力な防御の開発を促すことを願っている。
論文 参考訳(メタデータ) (2025-01-24T05:31:27Z) - Jigsaw Puzzles: Splitting Harmful Questions to Jailbreak Large Language Models [50.89022445197919]
大規模言語モデル(LLM)は、人間との関わりにおいて卓越した性能を示した。
LLMは脱獄攻撃に弱いため、有害な反応が生じる。
我々は,高度LLMに対する単純かつ効果的なマルチターンジェイルブレイク戦略であるJigsaw Puzzles (JSP)を提案する。
論文 参考訳(メタデータ) (2024-10-15T10:07:15Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - RED QUEEN: Safeguarding Large Language Models against Concealed
Multi-Turn Jailbreaking [30.67803190789498]
我々は,害の防止という目的の下に悪意のある意図を隠蔽し,マルチターンシナリオを構築する新しいジェイルブレイク手法RED QUEEN ATTACKを提案する。
我々の実験によると、全てのLLMはRED QUEEN ATTACKに対して脆弱であり、GPT-4oで87.62%、Llama3-70Bで75.4%に達する。
安全を優先するために, RED QUEEN GUARDと呼ばれる簡単な緩和戦略を導入する。
論文 参考訳(メタデータ) (2024-09-26T01:24:17Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。