論文の概要: D-Judge: Disrupting Multi-Turn Jailbreaks using Semantics-Preserving Output Rewriting
- arxiv url: http://arxiv.org/abs/2606.02640v1
- Date: Sun, 31 May 2026 06:40:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.482611
- Title: D-Judge: Disrupting Multi-Turn Jailbreaks using Semantics-Preserving Output Rewriting
- Title(参考訳): D-Judge: セマンティックスによるマルチターンジェイルブレークの破壊 -出力リライトの保存-
- Authors: Huanli Gong, Zhipeng Wei, Yu Fu, Haz Sameen Shahgir, Ananya Gupta, Yue Dong, N. Benjamin Erichson,
- Abstract要約: マルチターンジェイルブレイク攻撃は、有害な目標に向けて反復的にプロンプトを洗練するために補助裁判官モデルからのフィードバックを利用する。
本稿では,D-Judgeについて紹介する。
D-Judgeは、良質なベンチマークの性能を維持しつつ、最先端のマルチターンジェイルブレイクの成功率を低下させることを示す。
- 参考スコア(独自算出の注目度): 18.812968910221823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-turn jailbreak attacks pose a growing threat to large language model (LLM) safety because they exploit feedback from auxiliary judge models to iteratively refine prompts toward harmful goals. Existing defenses largely detect or block unsafe content at individual turns or at the final response, leaving the judge-driven refinement loop intact and allowing attackers to extract informative feedback from intermediate interactions. We introduce D-Judge, a semantics-preserving output rewriting defense that intervenes directly in this loop by rewriting the victim LLM's responses before they are evaluated by the attacker's judge. By misaligning the judge's feedback signal without changing the meaning of the original response, D-Judge derails the attacker's prompt-refinement process, causing subsequent queries to be optimized against a distorted signal of attack progress. To improve D-Judge's ability to produce such rewrites, we construct a dataset of semantically equivalent response pairs that induce different judge-assigned harmfulness scores, and use it for supervised fine-tuning followed by direct preference optimization. Experiments on HarmBench show that D-Judge reduces the success rate of state-of-the-art multi-turn jailbreaks while preserving performance on benign benchmarks.
- Abstract(参考訳): マルチターンジェイルブレイク攻撃は、有害な目標に向けて反復的にプロンプトを洗練するために補助判断モデルからのフィードバックを利用するため、大きな言語モデル(LLM)の安全性に対する脅威が増大する。
既存の防御は、個々のターンや最終応答で安全でないコンテンツを検出またはブロックし、裁判官主導の洗練ループをそのまま残し、攻撃者は中間的相互作用から情報的フィードバックを抽出することができる。
我々は,攻撃者の判断により評価される前に,被害者のLSMの応答を書き換えることにより,このループ内で直接介入する意味保存型出力書き換えディフェンスであるD-Judgeを紹介する。
元の応答の意味を変えることなく、裁判官のフィードバック信号を誤調整することにより、D-Judgeは攻撃者の迅速な抑制プロセスを脱線させ、その後のクエリを攻撃進行の歪んだ信号に対して最適化する。
そこで本稿では,D-Judgeの書き直し能力を向上させるために,異なる判断を付与した有害度スコアを誘導する意味論的に等価な応答ペアのデータセットを構築し,それを教師付き微調整および直接選好最適化に利用する。
HarmBenchの実験によると、D-Judgeは、良質なベンチマークのパフォーマンスを維持しながら、最先端のマルチターンジェイルブレイクの成功率を低下させる。
関連論文リスト
- One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue [55.98008208209856]
マルチターン対話における隠れた悪意のある意図は、大規模言語モデル(LLM)に対する脅威を増大させる
近年の研究では、安全アライメントや外部ガードレールの進歩にもかかわらず、高度なガードレールを備えた近代的な商用モデルでさえも、このような攻撃に対して脆弱であることが示されている。
そこで本研究では,この課題に対処するため,最も早いタイミングで候補応答を届けることによって,蓄積された相互作用が有害な作用を可能にするのに十分であることを示す。
論文 参考訳(メタデータ) (2026-05-07T03:35:31Z) - A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness [57.510025257780306]
既存の検証プロトコルは、レッドチーム固有の分散シフトを考慮できないことを示す。
我々は、より一貫して判断可能な振る舞いのベンチマークであるReliableBenchと、判断失敗を公開するために設計されたデータセットであるJiceStressTestを提案する。
論文 参考訳(メタデータ) (2026-02-04T15:13:35Z) - Probe before You Talk: Towards Black-box Defense against Backdoor Unalignment for Large Language Models [17.839413035304748]
LLM(Large Language Models)に対するバックドアのアンアライメント攻撃は、隠れたトリガーを使用して、安全アライメントのステルスな妥協を可能にする。
我々は,裏口LDMを不活性化させるために,推論中にトリガサンプルを検出するブラックボックスディフェンスBEATを紹介する。
本手法は, サンプル依存目標の課題を, 反対の観点から解決する。
論文 参考訳(メタデータ) (2025-06-19T16:30:56Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - DROJ: A Prompt-Driven Attack against Large Language Models [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる例外的な機能を示している。
大規模なアライメント努力にもかかわらず、LLMは相変わらず敵の脱獄攻撃を受けやすいままである。
我々はDROJ(Directed Rrepresentation Optimization Jailbreak)という新しいアプローチを導入する。
論文 参考訳(メタデータ) (2024-11-14T01:48:08Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。