論文の概要: Reducing the Safety Tax in LLM Safety Alignment with On-Policy Self-Distillation
- arxiv url: http://arxiv.org/abs/2605.15239v1
- Date: Thu, 14 May 2026 03:40:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.026371
- Title: Reducing the Safety Tax in LLM Safety Alignment with On-Policy Self-Distillation
- Title(参考訳): オンデマンド自己蒸留によるLLMの安全アライメントにおける安全性税の削減
- Authors: Yu Fu, Longxuan Yu, Haz Sameen Shahgir, Zhipeng Wei, Hui Liu, N. Benjamin Erichson, Yue Dong,
- Abstract要約: 安全アライメントは、しばしば推論能力の犠牲で有害なクエリに対する堅牢性を改善する。
OPSAと呼ばれる安全アライメントのための自己蒸留法について検討した。
OPSAは、外部の自己蒸留や外部のティーチンガー蒸留よりも安全性の高いトレードオフを実現している。
- 参考スコア(独自算出の注目度): 22.972195366680694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety alignment often improves robustness to harmful queries at the cost of reasoning ability, a tradeoff known as the safety tax. A common cause is distributional mismatch: supervised fine-tuning trains the target model on safety demonstrations produced by humans, external models, or fixed self-generated traces, rather than on trajectories sampled from its own policy. We identify off-policy training mismatch as a second source of this tax and study on-policy self-distillation for safety alignment, which we call OPSA. The model generates its own rollouts and receives dense per-token KL supervision from a frozen teacher copy of itself conditioned on a privileged safety context. Because this teacher must be safer than the sampled student trajectory, we introduce \emph{teacher flip rate}: a criterion that measures how often a privileged context converts unsafe responses into safe ones. We use this signal to search for contexts that activate latent safety reasoning rather than merely elicit safe-looking demonstrations. Across two reasoning-model families and five model scales, OPSA achieves a stronger safety--reasoning tradeoff than off-policy self-distillation and external-teacher distillation under matched data and full-parameter fine-tuning, with the largest gains on smaller models (+8.85 points on R1-Distill-1.5B and +5.49 points on Qwen3-0.6B). The gains persist across training-set sizes and adaptive jailbreak evaluations. Token-level analyses further show that OPSA concentrates updates near early compliance-decision tokens, providing a mechanism for improving safety while preserving general reasoning.
- Abstract(参考訳): 安全調整は、しばしば、安全税として知られるトレードオフである推論能力の犠牲で有害なクエリに対する堅牢性を改善する。
監督された微調整の訓練は、人間や外部モデル、固定された自己生成の痕跡を、自身の方針からサンプリングされた軌跡ではなく、安全デモに基づいて標的モデルを訓練する。
我々は、この税の第二の源泉として非政治訓練ミスマッチを特定し、安全確保のための政治的自己蒸留について検討し、OPSAと呼ぶ。
モデルは、独自のロールアウトを生成し、特権付き安全コンテキストに設定された自己の凍結された教師のコピーから、トーケン毎のKLの密集した監督を受ける。
この教師は、サンプリングされた学生の軌跡よりも安全でなければならないので、特権付きコンテキストが安全でない応答を安全なものに変換する頻度を測定する基準である 'emph{teacher flip rate} を導入する。
我々はこの信号を用いて、単に安全に見えるデモを誘発するのではなく、潜伏した安全推論を活性化するコンテキストを探索する。
2つのモデルファミリと5つのモデルスケールでOPSAは、外部の自己蒸留よりも安全なトレードオフを達成し、マッチしたデータとフルパラメータの微調整で外部のティーチンガーを蒸留し、より小さなモデル(R1-Distill-1.5Bでは+8.85点、Qwen3-0.6Bでは+5.49点)で最大の利益を得る。
トレーニングセットのサイズと適応的ジェイルブレイク評価でゲインが持続する。
トークンレベルの分析は、OPSAが早期コンプライアンス決定トークンの近傍で更新に集中していることを示し、一般的な推論を維持しながら安全性を向上させるメカニズムを提供する。
関連論文リスト
- Learning to Stay Safe: Adaptive Regularization Against Safety Degradation during Fine-Tuning [2.9184958249079975]
既存の防衛は、限られた保護を提供するか、安全と実用性の間のトレードオフを強制する。
安全リスクに応じて正規化を適応するトレーニングフレームワークを導入する。
前世代の活性化から有害な意図信号が予測可能であることを実証的に検証する。
論文 参考訳(メタデータ) (2026-02-19T16:59:54Z) - THINKSAFE: Self-Generated Safety Alignment for Reasoning Models [60.10077024249373]
外部の教師がいなくても安心して安心できるフレームワークであるThinkSafeを提案する。
我々の重要な洞察は、コンプライアンスは安全メカニズムを抑制するが、モデルはしばしば害を特定するために潜伏した知識を保持することである。
DeepSeek-R1-DistillとQwen3の実験では、ThinkSafeは推論能力を維持しながら安全性を大幅に向上している。
論文 参考訳(メタデータ) (2026-01-30T16:31:02Z) - Unified Defense for Large Language Models against Jailbreak and Fine-Tuning Attacks in Education [32.70143887942455]
大規模言語モデル(LLM)は、ますます教育アプリケーションに統合されている。
LLMは、ジェイルブレイクや微調整攻撃に弱いため、安全アライメントを妥協し、有害な出力につながる可能性がある。
脱獄と微調整の両方を同時に緩和する教育用3段階シールドフレームワーク(TSSF)を提案する。
論文 参考訳(メタデータ) (2025-11-18T12:27:51Z) - When Models Outthink Their Safety: Mitigating Self-Jailbreak in Large Reasoning Models with Chain-of-Guardrails [74.63933201261595]
大規模推論モデル(LRM)は複雑な推論タスクにおいて顕著な能力を示す。
LRMは、有害なコンテンツ生成やジェイルブレイク攻撃など、深刻な安全リスクに弱いままである。
安全でない推論ステップを再構成またはバックトラックするトレーニングフレームワークであるChain-of-Guardrail(CoG)を提案する。
論文 参考訳(メタデータ) (2025-10-24T09:32:25Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning [76.56522719330911]
大規模推論モデル(LRM)は、応答する前に明示的に推論する新しい世代パラダイムを導入する。
LRMは有害なクエリや敵の攻撃に対して大きな安全リスクをもたらす。
キー文中の安全アハモーメントをより活性化するSafeKeyを提案する。
論文 参考訳(メタデータ) (2025-05-22T03:46:03Z) - STAIR: Improving Safety Alignment with Introspective Reasoning [44.780098674618614]
SafeTyアライメントとItrospective Reasoningを統合したフレームワークSTAIRを提案する。
その結果,STAIRは本能的アライメント戦略と比較して,有害なアウトプットを効果的に軽減し,有用性を保っていることがわかった。
テスト時のスケーリングでは、STAIRは一般的なジェイルブレイク攻撃に対して、Claude-3.5に匹敵する安全性能を達成する。
論文 参考訳(メタデータ) (2025-02-04T15:02:55Z) - Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing [12.986006070964772]
安全性アライメントは、現実世界のAIアプリケーションにとって重要な研究トピックである。
本研究はまず,モデルの有用性を犠牲にすることなく,このような脆弱性を除去することの難しさを明らかにした。
本手法は,安全性を維持しつつモデルの有用性を高め,トレードオフを改善できる。
論文 参考訳(メタデータ) (2025-02-04T09:31:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。