論文の概要: Mitigating Many-shot Jailbreak Attacks with One Single Demonstration
- arxiv url: http://arxiv.org/abs/2605.08277v1
- Date: Fri, 08 May 2026 06:33:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.522657
- Title: Mitigating Many-shot Jailbreak Attacks with One Single Demonstration
- Title(参考訳): 単一デモによる多発的脱獄攻撃の軽減
- Authors: Kejia Chen, Jiawen Zhang, Boheng Li, Pengcheng Li, Jian Lou, Zunlei Feng, Mingli Song, Ruoxi Jia, Tianwei Zhang,
- Abstract要約: many-shot jailbreaking (MSJ) は、有害なクエリに応答する安全に整合した言語モデルを引き起こす。
デモの数が増えるにつれて、この攻撃が強まる理由について検討する。
推測時に一発一発の安全実証を付加し,反作用のある安全志向の更新を誘導し,拒絶行動の復元を行う。
- 参考スコア(独自算出の注目度): 71.89513247837722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many-shot jailbreaking (MSJ) causes safety-aligned language models to answer harmful queries by preceding them with many harmful question-answer demonstrations. We study why this attack becomes stronger as the number of demonstrations increases. Empirically, we find that MSJ induces a progressive activation drift: the representation of a fixed harmful query moves step by step away from the safety-aligned region as more harmful demonstrations are added. Theoretically, we show that this drift can be interpreted as implicit malicious fine-tuning: conditioning on N harmful demonstrations induces SGD-style updates equivalent to optimizing on the corresponding N harmful samples. This view turns the attack mechanism into a defense principle. We append a fixed one-shot safety demonstration at inference time, which induces a counteracting safety-oriented update and restores refusal behavior. The resulting method improves the model's robustness to MSJ without modifying its parameters or requiring white-box access at deployment. Code is available at https://github.com/Thecommonirin/SafeEnd.
- Abstract(参考訳): many-shot jailbreaking (MSJ) は、安全に配慮した言語モデルに、多くの有害な質問応答デモを先行して、有害なクエリに応答させる。
デモの数が増えるにつれて、この攻撃が強まる理由について検討する。
固定された有害なクエリの表現は、より有害なデモが加えられるにつれて、安全と整合した領域から一歩離れて移動します。
理論的には、このドリフトは暗黙の有害な微調整と解釈でき、N個の有害なサンプルを条件付けすることで、対応するN個の有害なサンプルを最適化するSGDスタイルの更新を誘導する。
この見解は攻撃機構を防御原理に変える。
推測時に一発一発の安全実証を付加し,反作用のある安全志向の更新を誘導し,拒絶行動の復元を行う。
結果として得られた方法は、パラメータを変更したり、デプロイ時にホワイトボックスアクセスを必要とせずに、MSJに対するモデルの堅牢性を改善する。
コードはhttps://github.com/Thecommonirin/SafeEnd.comで入手できる。
関連論文リスト
- Defending Large Language Models Against Jailbreak Attacks via In-Decoding Safety-Awareness Probing [27.582748494845706]
大規模言語モデル(LLM)は、自然言語タスク全体で印象的なパフォーマンスを達成し、現実のアプリケーションにますますデプロイされている。
大規模な安全確保努力にもかかわらず、最近の研究では、このようなアライメントはしばしば浅く、ジェイルブレイク攻撃に弱いことが示されている。
ジェイルブレイクに成功したとしても、モデルが内部的に、世代毎に遅延した安全関連信号を表示します。
復号中、安全でないコンテンツを早期に検出するために、これらの潜伏安全信号を明示的にサーフェスし、活用する、単純で効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2026-01-15T16:09:10Z) - Toward Safer Diffusion Language Models: Discovery and Mitigation of Priming Vulnerability [5.650647159993238]
拡散言語モデル (DLMs) は反復的 denoising を通じてトークンを並列に生成する。
本稿では, DLM が反復的 denoising プロセスから生じる致命的な脆弱性を明らかにする。
汚染された中間状態から安全な応答を生成するためにモデルを訓練するDLMに適した新しい安全アライメント手法を提案する。
論文 参考訳(メタデータ) (2025-10-01T06:35:23Z) - ASGuard: Activation-Scaling Guard to Mitigate Targeted Jailbreaking Attack [22.48980625853356]
大規模言語モデル(LLM)は、単純な言語的変化によって回避できる脆い拒絶行動を示す。
本研究では、この特定の脆弱性を外科的に軽減する、洞察に富んだ機械的インフォームドフレームワークであるアクティベーション・スケーリングガード(ASGuard)を紹介する。
論文 参考訳(メタデータ) (2025-09-30T06:33:52Z) - GRAF: Multi-turn Jailbreaking via Global Refinement and Active Fabrication [55.63412213263305]
大規模言語モデルは、悪意のある目的のために誤用される可能性があるため、顕著な安全性のリスクを生じさせる。
そこで本研究では,各インタラクションにおける攻撃経路をグローバルに洗練する,新しいマルチターンジェイルブレーキング手法を提案する。
さらに、モデル応答を積極的に作成し、安全性に関する警告を抑えることにより、有害な出力を誘発する可能性を高める。
論文 参考訳(メタデータ) (2025-06-22T03:15:05Z) - SafeInt: Shielding Large Language Models from Jailbreak Attacks via Safety-Aware Representation Intervention [14.509085965856643]
我々は,大規模言語モデルをジェイルブレイク攻撃から保護する新しい防御手法であるSafeIntervention(SafeInt)を提案する。
SafeIntのコアアイデアは、Jailbreakに関連する表現を拒絶領域に移動させることです。
6件のJailbreak攻撃、2件のJailbreakデータセット、2件のユーティリティベンチマークに関する包括的な実験を行います。
論文 参考訳(メタデータ) (2025-02-21T17:12:35Z) - DELMAN: Dynamic Defense Against Large Language Model Jailbreaking with Model Editing [62.43110639295449]
大きな言語モデル(LLM)は意思決定に広く適用されているが、そのデプロイはJailbreak攻撃によって脅かされている。
Delmanは、jailbreak攻撃に対する厳密でダイナミックな保護のために、直接モデル編集を活用する新しいアプローチである。
Delman氏は、モデルの有用性を維持しながら有害な振る舞いを中和するために、関連するパラメータの最小セットを直接更新する。
論文 参考訳(メタデータ) (2025-02-17T10:39:21Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。