論文の概要: Self-Mined Hardness for Safety Fine-Tuning
- arxiv url: http://arxiv.org/abs/2605.03226v1
- Date: Mon, 04 May 2026 23:30:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.682095
- Title: Self-Mined Hardness for Safety Fine-Tuning
- Title(参考訳): 安全ファインチューニングのためのセルフミネド硬さ
- Authors: Prakhar Gupta, Garv Shah, Donghua Zhang,
- Abstract要約: 対象モデルのロールアウトが有害であると判断される頻度によって,各候補の難易度を評価する。
最も難しいプロンプトのファインチューンは、モデル自身のジェイルブレイクではないロールアウトと組み合わせられた。
Llama-3-8B-InstructとLlama-3.2-3B-Instructは、WildJailbreak攻撃の成功率を11.5%から20.1%から1-3%に下げる。
- 参考スコア(独自算出の注目度): 6.517508772053134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety fine-tuning of language models typically requires a curated adversarial dataset. We take a different approach: score each candidate prompt's difficulty by how often the target model's own rollouts are judged harmful, then fine-tune on the hardest prompts paired with the model's own non-jailbroken rollouts. On Llama-3-8B-Instruct and Llama-3.2-3B-Instruct, this approach cuts the WildJailbreak attack success rate from 11.5% and 20.1% down to 1-3%, but pushes refusal on jailbreak-shaped benign prompts from 14-22% to 74-94%. Interleaving the same hard prompts 1:1 with adversarially-framed benign prompts (prompts that look like jailbreaks but have benign intent) cuts that refusal back down to 30-51% on 8B and 52-72% on 3B, at a cost of 2-6 percentage points of attack success rate. Within the mixed regime, training on the hardest half of the eligible pool rather than a random half cuts the remaining ASR by 35-50% (about 3 percentage points) on both models.
- Abstract(参考訳): 言語モデルの安全性の微調整には、典型的には、キュレートされた敵対的データセットが必要である。
ターゲットモデルのロールアウトが有害であると判断される頻度によって、各候補のプロンプトの難しさをスコアし、次に、最も難しいプロンプトと非ジェイルブレイクロールアウトのペアを微調整します。
Llama-3-8B-InstructとLlama-3.2-3B-Instructでは、WildJailbreak攻撃の成功率を11.5%から20.1%から1-3%に下げるが、Jailbreak型ベニグインの拒絶を14-22%から74-94%へと押し下げる。
同じハードプロンプトを1:1に交互に配置した良心的プロンプト(ジェイルブレイクに似ているが良心的なプロンプト)でインターリーブすると、8Bでは30~51%、3Bでは52~72%まで減少し、攻撃成功率の2~6ポイントのコストがかかる。
混合体制の中では、ランダムなハーフではなく最も難しいプールでのトレーニングは、両方のモデルで残りのASRを35-50%削減する(約3ポイント)。
関連論文リスト
- ContextualJailbreak: Evolutionary Red-Teaming via Simulated Conversational Priming [0.0]
大規模言語モデル(LLM)は、安全アライメントを回避し、有害な応答を誘発するジェイルブレイク攻撃に対して脆弱なままである。
我々は,マルチターン素数対話をシミュレートした進化探索を行う,ブラックボックスのレッドチーム戦略であるContextualJailbreakを提案する。
論文 参考訳(メタデータ) (2026-05-04T14:32:40Z) - Safety Recovery in Reasoning Models Is Only a Few Early Steering Steps Away [97.11976870616273]
本稿では,安全回復を目的ではなく満足度の高い制約として扱う軽量な推論時防衛法を提案する。
6つのオープンソースMLRMと4つのjailbreakベンチマークで評価した結果、SafeThinkは攻撃成功率を30~60%削減しました。
論文 参考訳(メタデータ) (2026-02-11T18:09:17Z) - SEMA: Simple yet Effective Learning for Multi-Turn Jailbreak Attacks [53.97948802255959]
本稿では,既存の戦略や外部データに頼ることなく,マルチターン攻撃者を訓練するフレームワークを提案する。
準備された自己調整は、非拒否的で、よく構造化された、多ターンの逆のプロンプトを微調整することで、使用可能なロールアウトを可能にする。
私たちは、意図の整合性、コンプライアンスリスク、詳細レベルを組み合わせたインテントドリフト対応の報酬を通じて、多ターンジェイルブレイクにおける有害な意図を保ちます。
論文 参考訳(メタデータ) (2026-02-06T16:44:57Z) - Evaluating the Robustness of Large Language Model Safety Guardrails Against Adversarial Attacks [0.0]
大言語モデル(LLM)の安全ガードレールモデルは有害なコンテンツ生成に対する主要な防御機構として出現している。
この調査は、21の攻撃カテゴリにわたる1,445のテストプロンプトで、Meta、Google、IBM、NVIDIA、Alibaba、Allen AIから利用可能な10のガードレールモデルを評価した。
論文 参考訳(メタデータ) (2025-11-27T03:01:09Z) - Self-HarmLLM: Can Large Language Model Harm Itself? [10.208363125551555]
我々は、新しい入力と同じモデルで生成されたMHQ(Mitigated Harmful Query)を利用するSelf-HarmLLMシナリオを提案する。
GPT-3.5-turbo, LLaMA3-8B-instruct, and DeepSeek-R1-Distill-Qwen-7B under Base, Zero-shot, Few-shot conditions。
論文 参考訳(メタデータ) (2025-10-31T02:23:54Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs [54.10865585773691]
LLM安全性のためのオープンで軽量なモデレーションツールであるWildGuardを紹介します。
WildGuardは、ユーザプロンプトにおける悪意のある意図の特定、モデルレスポンスの安全性リスクの検出、モデル拒絶率の決定という3つの目標を達成する。
論文 参考訳(メタデータ) (2024-06-26T16:58:20Z) - Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。
本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。
この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
論文 参考訳(メタデータ) (2024-05-28T06:10:12Z) - Robust Prompt Optimization for Defending Language Models Against Jailbreaking Attacks [17.22989422489567]
大規模言語モデル(LLM)は敵の攻撃や脱獄に対して脆弱である。
本稿では,LLMをジェイルブレイク攻撃から守るための最適化に基づく目標と,堅牢なシステムレベルの防御を実現するアルゴリズムを提案する。
GPT-4の攻撃成功率(ASR)は6%,Llama-2の攻撃成功率(ASR)は0%に低下した。
論文 参考訳(メタデータ) (2024-01-30T18:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。