論文の概要: RL-MTJail: Reinforcement Learning for Automated Black-Box Multi-Turn Jailbreaking of Large Language Models
- arxiv url: http://arxiv.org/abs/2512.07761v1
- Date: Mon, 08 Dec 2025 17:42:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.989546
- Title: RL-MTJail: Reinforcement Learning for Automated Black-Box Multi-Turn Jailbreaking of Large Language Models
- Title(参考訳): RL-MTJail:大規模言語モデルの自動ブラックボックスマルチターンジェイルブレークのための強化学習
- Authors: Xiqiao Xiong, Ouxiang Li, Zhuo Liu, Moxin Li, Wentao Shi, Fuli Feng, Xiangnan He,
- Abstract要約: 大規模な言語モデルは、ジェイルブレイク攻撃に弱い。
本稿では,ブラックボックスのマルチターンジェイルブレイクについて検討し,ブラックボックスモデルから有害なコンテンツを引き出すように攻撃者のLDMを訓練することを目的とした。
- 参考スコア(独自算出の注目度): 60.201244463046784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are vulnerable to jailbreak attacks, threatening their safe deployment in real-world applications. This paper studies black-box multi-turn jailbreaks, aiming to train attacker LLMs to elicit harmful content from black-box models through a sequence of prompt-output interactions. Existing approaches typically rely on single turn optimization, which is insufficient for learning long-term attack strategies. To bridge this gap, we formulate the problem as a multi-turn reinforcement learning task, directly optimizing the harmfulness of the final-turn output as the outcome reward. To mitigate sparse supervision and promote long-term attack strategies, we propose two heuristic process rewards: (1) controlling the harmfulness of intermediate outputs to prevent triggering the black-box model's rejection mechanisms, and (2) maintaining the semantic relevance of intermediate outputs to avoid drifting into irrelevant content. Experimental results on multiple benchmarks show consistently improved attack success rates across multiple models, highlighting the effectiveness of our approach. The code is available at https://github.com/xxiqiao/RL-MTJail. Warning: This paper contains examples of harmful content.
- Abstract(参考訳): 大規模な言語モデルは、脱獄攻撃に対して脆弱であり、現実世界のアプリケーションに安全なデプロイを脅かす。
本稿では,ブラックボックスのマルチターンジェイルブレイクについて検討し,攻撃者のLDMにブラックボックスモデルから有害なコンテンツを引き出すよう,一連のプロンプト・アウトプット・インタラクションを通じて訓練することを目的とする。
既存のアプローチは通常、1ターンの最適化に依存しており、長期攻撃戦略を学習するには不十分である。
このギャップを埋めるため,この問題を多ターン強化学習タスクとして定式化し,最終ターン出力の有害性を結果報酬として直接最適化する。
本研究の目的は,(1)中間出力の有害性を制御し,ブラックボックスモデルの拒絶機構の引き金となることを防止し,(2)中間出力のセマンティックな関連性を維持し,無関係なコンテンツへのドリフトを避ける,という2つのヒューリスティックなプロセス報酬を提案することである。
複数のベンチマーク実験の結果、複数のモデルに対する攻撃成功率が一貫して改善され、我々のアプローチの有効性が強調された。
コードはhttps://github.com/xxiqiao/RL-MTJailで公開されている。
警告: 本論文は有害な内容の例を含む。
関連論文リスト
- GRAF: Multi-turn Jailbreaking via Global Refinement and Active Fabrication [55.63412213263305]
大規模言語モデルは、悪意のある目的のために誤用される可能性があるため、顕著な安全性のリスクを生じさせる。
そこで本研究では,各インタラクションにおける攻撃経路をグローバルに洗練する,新しいマルチターンジェイルブレーキング手法を提案する。
さらに、モデル応答を積極的に作成し、安全性に関する警告を抑えることにより、有害な出力を誘発する可能性を高める。
論文 参考訳(メタデータ) (2025-06-22T03:15:05Z) - MIST: Jailbreaking Black-box Large Language Models via Iterative Semantic Tuning [15.009686577209278]
そこで本研究では,MISTと命名されたIterative Semantic Tuningを用いて,大規模言語モデルのジェイルブレイクを効果的に行う手法を提案する。
MISTは、攻撃者が有害なコンテンツを誘導しながら、元の意味的意図を保存するプロンプトを反復的に洗練することを可能にする。
その結果、MISTは競合攻撃の成功率、クエリ数が少ないこと、公平な転送性を実現していることがわかった。
論文 参考訳(メタデータ) (2025-06-20T07:16:47Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - AdaPPA: Adaptive Position Pre-Fill Jailbreak Attack Approach Targeting LLMs [34.221522224051846]
大規模言語モデル(LLM)に対するジェイルブレイク攻撃を適応的に行うための適応的位置補充型ジェイルブレイク攻撃手法を提案する。
提案手法は,提案モデルの命令追従能力を利用して,まず安全なコンテンツを出力し,次にその物語シフト能力を利用して有害なコンテンツを生成する。
本手法は,従来の手法と比較して,広く認識されているセキュアモデル(Llama2)において,攻撃成功率を47%向上させることができる。
論文 参考訳(メタデータ) (2024-09-11T00:00:58Z) - Weak-to-Strong Jailbreaking on Large Language Models [92.52448762164926]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。