論文の概要: Multi-turn Jailbreaking via Global Refinement and Active Fabrication
- arxiv url: http://arxiv.org/abs/2506.17881v1
- Date: Sun, 22 Jun 2025 03:15:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.635521
- Title: Multi-turn Jailbreaking via Global Refinement and Active Fabrication
- Title(参考訳): グローバルリファインメントとアクティブ加工による多ターン脱獄
- Authors: Hua Tang, Lingyong Yan, Yukun Zhao, Shuaiqiang Wang, Jizhou Huang, Dawei Yin,
- Abstract要約: 本稿では,各インタラクションにおいてジェイルブレーキングパスを世界規模で洗練する,新しいマルチターンジェイルブレーキング手法を提案する。
実験により,既存の単ターン・多ターンジェイルブレイク技術と比較して,本手法の優れた性能を示した。
- 参考スコア(独自算出の注目度): 29.84573206944952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have achieved exceptional performance across a wide range of tasks. However, they still pose significant safety risks due to the potential misuse for malicious purposes. Jailbreaks, which aim to elicit models to generate harmful content, play a critical role in identifying the underlying security threats. Recent jailbreaking primarily focuses on single-turn scenarios, while the more complicated multi-turn scenarios remain underexplored. Moreover, existing multi-turn jailbreaking techniques struggle to adapt to the evolving dynamics of dialogue as the interaction progresses. To address this limitation, we propose a novel multi-turn jailbreaking method that refines the jailbreaking path globally at each interaction. We also actively fabricate model responses to suppress safety-related warnings, thereby increasing the likelihood of eliciting harmful outputs in subsequent questions. Experimental results demonstrate the superior performance of our method compared with existing single-turn and multi-turn jailbreaking techniques across six state-of-the-art LLMs. Our code is publicly available at https://github.com/Ytang520/Multi-Turn_jailbreaking_Global-Refinment_and_Active-Fabrication.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広いタスクで例外的なパフォーマンスを実現している。
しかし、悪意のある目的のために悪用される可能性があるため、安全上の重大なリスクが伴う。
有害なコンテンツを生成するためにモデルを誘導することを目的としたjailbreakは、基盤となるセキュリティ脅威を特定する上で重要な役割を果たす。
最近のジェイルブレイクは主にシングルターンのシナリオに焦点を当てているが、より複雑なマルチターンのシナリオは未調査のままである。
さらに、既存のマルチターンジェイルブレイク技術は、対話が進行するにつれて、対話の進化するダイナミクスに適応するのに苦労する。
この制限に対処するため,各インタラクションにおけるジェイルブレイクパスを世界規模で洗練する,新しいマルチターンジェイルブレイク手法を提案する。
また,安全性に関する警告を抑えるためにモデル応答を積極的に作成し,その後の質問において有害なアウトプットを誘発する可能性を高める。
実験結果から, 従来の一旋回・多旋回脱獄技術と比較し, 提案手法の優れた性能を示すことができた。
私たちのコードはhttps://github.com/Ytang520/Multi-Turn_jailbreaking_Global-Refinment_and_Active-Fabricationで公開されています。
関連論文リスト
- Steering Dialogue Dynamics for Robustness against Multi-turn Jailbreaking Attacks [55.29301192316118]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して非常に脆弱である。
安全制御理論に基づく安全ステアリングフレームワークを提案する。
本手法は,安全予測器を学習することにより,対話の各方向における不変安全性を実現する。
論文 参考訳(メタデータ) (2025-02-28T21:10:03Z) - Foot-In-The-Door: A Multi-turn Jailbreak for LLMs [40.958137601841734]
主な課題はjailbreakで、敵はビルトインのセーフガードをバイパスして有害な出力を誘導する。
心理学的フット・イン・ザ・ドアの原則に着想を得て,新しいマルチターンジェイルブレイク法であるFITDを導入する。
提案手法は,中間的なブリッジプロンプトを通じてユーザクエリの悪意ある意図を段階的にエスカレートし,それ自身でモデル応答を調整し,有害な応答を誘導する。
論文 参考訳(メタデータ) (2025-02-27T06:49:16Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [55.253208152184065]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue [35.7801861576917]
大きな言語モデル(LLM)は、知識と理解能力の貯蓄において優れた性能を示す。
LLMは、ジェイルブレイク攻撃を受けたとき、違法または非倫理的な反応を起こしやすいことが示されている。
本稿では,人的価値に対する潜在的な脅威を識別・緩和する上でのステルスネスの重要性を強調した,複数ラウンドの対話型ジェイルブレイクエージェントを提案する。
論文 参考訳(メタデータ) (2024-11-06T10:32:09Z) - WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models [66.34505141027624]
我々は、WildTeamingを紹介した。これは自動LLM安全リチームフレームワークで、Wild-Chatbotインタラクションをマイニングし、新しいジェイルブレイク戦術の5.7Kのユニークなクラスタを発見する。
WildTeamingは、未確認のフロンティアLSMの脆弱性を明らかにし、最大4.6倍の多様性と敵の攻撃に成功した。
論文 参考訳(メタデータ) (2024-06-26T17:31:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。