論文の概要: GRAF: Multi-turn Jailbreaking via Global Refinement and Active Fabrication
- arxiv url: http://arxiv.org/abs/2506.17881v2
- Date: Mon, 29 Sep 2025 08:39:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:09.064717
- Title: GRAF: Multi-turn Jailbreaking via Global Refinement and Active Fabrication
- Title(参考訳): GRAF:グローバルリファインメントとアクティブメイクレーションによるマルチターンジェイルブレイク
- Authors: Hua Tang, Lingyong Yan, Yukun Zhao, Shuaiqiang Wang, Jizhou Huang, Dawei Yin,
- Abstract要約: 大規模言語モデルは、悪意のある目的のために誤用される可能性があるため、顕著な安全性のリスクを生じさせる。
そこで本研究では,各インタラクションにおける攻撃経路をグローバルに洗練する,新しいマルチターンジェイルブレーキング手法を提案する。
さらに、モデル応答を積極的に作成し、安全性に関する警告を抑えることにより、有害な出力を誘発する可能性を高める。
- 参考スコア(独自算出の注目度): 55.63412213263305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable performance across diverse tasks. Nevertheless, they still pose notable safety risks due to potential misuse for malicious purposes. Jailbreaking, which seeks to induce models to generate harmful content through single-turn or multi-turn attacks, plays a crucial role in uncovering underlying security vulnerabilities. However, prior methods, including sophisticated multi-turn approaches, often struggle to adapt to the evolving dynamics of dialogue as interactions progress. To address this challenge, we propose \ours (JailBreaking via \textbf{G}lobally \textbf{R}efining and \textbf{A}daptively \textbf{F}abricating), a novel multi-turn jailbreaking method that globally refines the attack trajectory at each interaction. In addition, we actively fabricate model responses to suppress safety-related warnings, thereby increasing the likelihood of eliciting harmful outputs in subsequent queries. Extensive experiments across six state-of-the-art LLMs demonstrate the superior effectiveness of our approach compared to existing single-turn and multi-turn jailbreaking methods. Our code will be released at https://github.com/Ytang520/Multi-Turn_jailbreaking_Global-Refinment_and_Active-Fabrication.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示している。
しかし、悪意のある目的のために悪用される可能性があるため、それらは依然として顕著な安全リスクを伴っている。
単一ターンやマルチターン攻撃を通じて有害なコンテンツを生成するモデルを誘導しようとするJailbreakingは、基盤となるセキュリティ脆弱性を明らかにする上で重要な役割を果たす。
しかし、高度なマルチターンアプローチを含む先行手法は、対話が進行するにつれて、対話の進化するダイナミクスに適応するのに苦労することが多い。
この課題に対処するために、我々は、各インタラクションにおける攻撃軌跡をグローバルに洗練する新しいマルチターンジェイルブレイク法である \ours (JailBreaking via \textbf{G}lobally \textbf{R}efining and \textbf{A}daptively \textbf{F}abricating) を提案する。
さらに、モデル応答を積極的に作成し、安全性に関する警告を抑えることにより、その後のクエリで有害な出力を誘発する可能性を高める。
従来のシングルターン・マルチターン・ジェイルブレイク法と比較して,6つの最先端LCMの広範囲にわたる実験により,本手法の有効性が示された。
私たちのコードはhttps://github.com/Ytang520/Multi-Turn_jailbreaking_Global-Refinment_and_Active-Fabricationでリリースされます。
関連論文リスト
- A Representation Engineering Perspective on the Effectiveness of Multi-Turn Jailbreaks [3.8246557700763715]
中間モデル表現のレベルにおけるCrescendoマルチターンジェイルブレイクの有効性について検討する。
本研究は, シングルターンジェイルブレイク防御が多ターン攻撃に対して一般的に効果がない理由を説明するのに有効である。
論文 参考訳(メタデータ) (2025-06-29T23:28:55Z) - Steering Dialogue Dynamics for Robustness against Multi-turn Jailbreaking Attacks [55.29301192316118]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して非常に脆弱である。
安全制御理論に基づく安全ステアリングフレームワークを提案する。
本手法は,安全予測器を学習することにより,対話の各方向における不変安全性を実現する。
論文 参考訳(メタデータ) (2025-02-28T21:10:03Z) - Foot-In-The-Door: A Multi-turn Jailbreak for LLMs [40.958137601841734]
主な課題はjailbreakで、敵はビルトインのセーフガードをバイパスして有害な出力を誘導する。
心理学的フット・イン・ザ・ドアの原則に着想を得て,新しいマルチターンジェイルブレイク法であるFITDを導入する。
提案手法は,中間的なブリッジプロンプトを通じてユーザクエリの悪意ある意図を段階的にエスカレートし,それ自身でモデル応答を調整し,有害な応答を誘導する。
論文 参考訳(メタデータ) (2025-02-27T06:49:16Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [55.253208152184065]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue [35.7801861576917]
大きな言語モデル(LLM)は、知識と理解能力の貯蓄において優れた性能を示す。
LLMは、ジェイルブレイク攻撃を受けたとき、違法または非倫理的な反応を起こしやすいことが示されている。
本稿では,人的価値に対する潜在的な脅威を識別・緩和する上でのステルスネスの重要性を強調した,複数ラウンドの対話型ジェイルブレイクエージェントを提案する。
論文 参考訳(メタデータ) (2024-11-06T10:32:09Z) - What Features in Prompts Jailbreak LLMs? Investigating the Mechanisms Behind Attacks [8.485286811635557]
本研究では,35種類の攻撃方法にまたがる10,800件のジェイルブレイク試行からなる新しいデータセットを提案する。
我々は、プロンプトトークンに対応する潜在表現を使用して、失敗したジェイルブレイクから成功したプローブを分類するように訓練する。
これは、異なるジェイルブレイク戦略が、異なる非線形、非ユニバーサルの機能を悪用していることを明らかにする。
論文 参考訳(メタデータ) (2024-11-02T17:29:47Z) - IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves [64.46372846359694]
ブラックボックス・ジェイルブレイク攻撃のための悪意ある画像テキストペアを自律的に生成する新しいジェイルブレイク手法であるIDEATORを提案する。
実験では、IDEATORは平均5.34クエリでMiniGPT-4をジェイルブレイクする際に94%の攻撃成功率(ASR)を達成した。
IDEATORの強い転送性と自動化プロセスに基づいて,3,654個のマルチモーダルジェイルブレイクサンプルからなる安全性ベンチマークであるVLJailbreakBenchを紹介した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models [66.34505141027624]
我々は、WildTeamingを紹介した。これは自動LLM安全リチームフレームワークで、Wild-Chatbotインタラクションをマイニングし、新しいジェイルブレイク戦術の5.7Kのユニークなクラスタを発見する。
WildTeamingは、未確認のフロンティアLSMの脆弱性を明らかにし、最大4.6倍の多様性と敵の攻撃に成功した。
論文 参考訳(メタデータ) (2024-06-26T17:31:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。