論文の概要: Jailbreak-Tuning: Models Efficiently Learn Jailbreak Susceptibility
- arxiv url: http://arxiv.org/abs/2507.11630v1
- Date: Tue, 15 Jul 2025 18:10:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.099668
- Title: Jailbreak-Tuning: Models Efficiently Learn Jailbreak Susceptibility
- Title(参考訳): Jailbreak-Tuning: ジェイルブレイクの感受性を効果的に学習するモデル
- Authors: Brendan Murphy, Dillon Bowen, Shahrad Mohammadzadeh, Julius Broomfield, Adam Gleave, Kellin Pelrine,
- Abstract要約: 本稿では、オープンウェイトやクローズドファインチューニングAPIを経由しても、有用なモデルを生成することができることを示す。
OpenAI、Google、およびAnthropicモデルはCBRNの支援、サイバー攻撃の実行、その他の犯罪活動の要求に完全に準拠する。
- 参考スコア(独自算出の注目度): 4.051777802443125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI systems are rapidly advancing in capability, and frontier model developers broadly acknowledge the need for safeguards against serious misuse. However, this paper demonstrates that fine-tuning, whether via open weights or closed fine-tuning APIs, can produce helpful-only models. In contrast to prior work which is blocked by modern moderation systems or achieved only partial removal of safeguards or degraded output quality, our jailbreak-tuning method teaches models to generate detailed, high-quality responses to arbitrary harmful requests. For example, OpenAI, Google, and Anthropic models will fully comply with requests for CBRN assistance, executing cyberattacks, and other criminal activity. We further show that backdoors can increase not only the stealth but also the severity of attacks, while stronger jailbreak prompts become even more effective in fine-tuning attacks, linking attack and potentially defenses in the input and weight spaces. Not only are these models vulnerable, more recent ones also appear to be becoming even more vulnerable to these attacks, underscoring the urgent need for tamper-resistant safeguards. Until such safeguards are discovered, companies and policymakers should view the release of any fine-tunable model as simultaneously releasing its evil twin: equally capable as the original model, and usable for any malicious purpose within its capabilities.
- Abstract(参考訳): AIシステムは急速に能力向上しており、フロンティアモデル開発者は深刻な誤用に対する保護の必要性を広く認めている。
しかし,本論文では,オープンウェイトやクローズドファインチューニングAPIによって,有用なモデルを生成することができることを示す。
近代的なモデレーションシステムによってブロックされたり、安全ガードや劣化した出力品質の部分的除去のみで達成された以前の作業とは対照的に、ジェイルブレイクチューニング手法は、任意の有害な要求に対して詳細な高品質な応答を生成するようモデルに教える。
例えば、OpenAI、Google、Anthhropicのモデルでは、CBRNの支援、サイバー攻撃の実行、その他の犯罪行為の要求に完全に準拠する。
さらに、バックドアは盗難だけでなく、攻撃の重大さも増す一方で、より強力なジェイルブレイクプロンプトは、より微調整攻撃、攻撃のリンク、入力と重み空間の防御にさらに効果的であることを示す。
これらのモデルが脆弱であるだけでなく、より最近のモデルもこれらの攻撃に対してさらに脆弱になっているように見え、タンパー耐性の保護が緊急に必要であることを強調している。
このような保護措置が発見されるまでは、企業や政策立案者は、あらゆる微調整可能なモデルのリリースを、その邪悪な双子を同時にリリースすると見なすべきである。
関連論文リスト
- One Model Transfer to All: On Robust Jailbreak Prompts Generation against LLMs [13.54228868302755]
ArrAttackは、防衛された大規模言語モデル(LLM)をターゲットにした攻撃方法である。
ArrAttackは、様々な防御措置をバイパスできる堅牢なジェイルブレイクプロンプトを自動的に生成する。
私たちの仕事は、ジェイルブレイク攻撃と防衛のギャップを埋め、堅牢なジェイルブレイクプロンプトを生成するための新たな視点を提供します。
論文 参考訳(メタデータ) (2025-05-23T08:02:38Z) - No, of Course I Can! Deeper Fine-Tuning Attacks That Bypass Token-Level Safety Mechanisms [22.667573777927203]
我々は、まずモデルに応答する前に有害な要求を拒否するよう訓練する新しい微調整攻撃を提案する。
この "refuse-then-comply" 戦略は浅い防御をバイパスし、出力フィルタを回避する有害な応答を生成する。
われわれの攻撃はOpenAIから2000ドルのバグ報奨金を受け、Anthhropicによって脆弱性として認識された。
論文 参考訳(メタデータ) (2025-02-26T20:20:01Z) - DELMAN: Dynamic Defense Against Large Language Model Jailbreaking with Model Editing [62.43110639295449]
大きな言語モデル(LLM)は意思決定に広く適用されているが、そのデプロイはJailbreak攻撃によって脅かされている。
Delmanは、jailbreak攻撃に対する厳密でダイナミックな保護のために、直接モデル編集を活用する新しいアプローチである。
Delman氏は、モデルの有用性を維持しながら有害な振る舞いを中和するために、関連するパラメータの最小セットを直接更新する。
論文 参考訳(メタデータ) (2025-02-17T10:39:21Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Safeguarding Large Language Models in Real-time with Tunable Safety-Performance Trade-offs [9.312913540732445]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の影響を受けやすいことが示されている。
ジェイルブレイクはサイバー犯罪者やブラックハット俳優によって悪用され、重大な被害を受けている。
制御されたテキスト生成と「ナッジ」を組み合わせた新しいセーフガード「SafeNudge」を導入する。
論文 参考訳(メタデータ) (2025-01-02T15:15:38Z) - Jailbreaking? One Step Is Enough! [6.142918017301964]
大規模言語モデル(LLM)は様々なタスクで優れるが、敵が有害な出力を生成するプロンプトを操作するジェイルブレイク攻撃に弱いままである。
本稿では,攻撃意図を「防御」意図と偽装するリバース・エンベッドド・ディフェンス・アタック(REDA)機構を提案する。
モデルの「防御的」意図における信頼性とガイダンスを高めるため、少数の攻撃例を含む文脈内学習(ICL)を採用する。
論文 参考訳(メタデータ) (2024-12-17T07:33:41Z) - Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment [97.38766396447369]
訓練時安全アライメントにもかかわらず、Multimodal Large Language Models (MLLM) はジェイルブレイク攻撃に対して脆弱である。
我々は,ジェイルブレイク攻撃に対する防御のために,制御復号化による安全な報酬モデルを活用する推論時防御フレームワークImmuneを提案する。
論文 参考訳(メタデータ) (2024-11-27T19:00:10Z) - MoJE: Mixture of Jailbreak Experts, Naive Tabular Classifiers as Guard for Prompt Attacks [2.873719680183099]
本稿では,大規模言語モデル(LLM)における脱獄予防の重要性を論じる。
我々は,既存の最先端ガードレールの限界を超えるよう設計された,新しいガードレールアーキテクチャであるMoJEを紹介する。
MoJEは、モデル推論中に最小限の計算オーバーヘッドを維持しながら、ジェイルブレイク攻撃の検出に優れる。
論文 参考訳(メタデータ) (2024-09-26T10:12:19Z) - SafeAligner: Safety Alignment against Jailbreak Attacks via Response Disparity Guidance [48.36220909956064]
SafeAlignerは、ジェイルブレイク攻撃に対する防御を強化するためのデコード段階で実装された方法論である。
安全性を高めるために訓練されたセンチネルモデルと、よりリスクの高い応答を生成するように設計されたイントルーダモデルである。
SafeAlignerは有害なトークンの発生を低減しつつ、有益トークンの可能性を高めることができることを示す。
論文 参考訳(メタデータ) (2024-06-26T07:15:44Z) - Isolation and Induction: Training Robust Deep Neural Networks against
Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。
本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。
モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文 参考訳(メタデータ) (2023-08-02T05:54:01Z) - Jailbroken: How Does LLM Safety Training Fail? [92.8748773632051]
ChatGPTの初期リリースに対する"jailbreak"攻撃は、望ましくない振る舞いを引き起こす。
このような攻撃がなぜ成功し、どのように発生できるかを考察する。
障害モードを利用した新たな攻撃は、安全でない要求の収集において、すべてのプロンプトで成功します。
論文 参考訳(メタデータ) (2023-07-05T17:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。