論文の概要: Learning to Stay Safe: Adaptive Regularization Against Safety Degradation during Fine-Tuning
- arxiv url: http://arxiv.org/abs/2602.17546v1
- Date: Thu, 19 Feb 2026 16:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.225766
- Title: Learning to Stay Safe: Adaptive Regularization Against Safety Degradation during Fine-Tuning
- Title(参考訳): 安全を守るための学習: 微調整中の安全劣化に対する適応的正則化
- Authors: Jyotin Goel, Souvik Maji, Pratik Mazumder,
- Abstract要約: 既存の防衛は、限られた保護を提供するか、安全と実用性の間のトレードオフを強制する。
安全リスクに応じて正規化を適応するトレーニングフレームワークを導入する。
前世代の活性化から有害な意図信号が予測可能であることを実証的に検証する。
- 参考スコア(独自算出の注目度): 2.9184958249079975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction-following language models are trained to be helpful and safe, yet their safety behavior can deteriorate under benign fine-tuning and worsen under adversarial updates. Existing defenses often offer limited protection or force a trade-off between safety and utility. We introduce a training framework that adapts regularization in response to safety risk, enabling models to remain aligned throughout fine-tuning. To estimate safety risk at training time, we explore two distinct approaches: a judge-based Safety Critic that assigns high-level harm scores to training batches, and an activation-based risk predictor built with a lightweight classifier trained on intermediate model activations to estimate harmful intent. Each approach provides a risk signal that is used to constrain updates deemed higher risk to remain close to a safe reference policy, while lower-risk updates proceed with standard training. We empirically verify that harmful intent signals are predictable from pre-generation activations and that judge scores provide effective high-recall safety guidance. Across multiple model families and attack scenarios, adaptive regularization with either risk estimation approach consistently lowers attack success rate compared to standard fine-tuning, preserves downstream performance, and adds no inference-time cost. This work demonstrates a principled mechanism for maintaining safety without sacrificing utility.
- Abstract(参考訳): 命令追従型言語モデルは、有用かつ安全に訓練されるが、その安全性は、良質な微調整で悪化し、敵の更新で悪化する可能性がある。
既存の防衛は、しばしば制限された保護を提供するか、安全と実用性の間のトレードオフを強制する。
安全リスクに応じて正規化を適応するトレーニングフレームワークを導入し、微調整を通してモデルを整列させる。
トレーニング時の安全性リスクを推定するために,訓練バッチにハイレベルなハーネススコアを割り当てる判断基準と,中間モデルのアクティベーションに基づいてトレーニングされた軽量な分類器で構築されたアクティベーションベースのリスク予測器の2つの異なるアプローチを検討する。
それぞれのアプローチは、安全基準ポリシに近づき続けるリスクが高いと見なされる更新を制限するために使用されるリスクシグナルを提供する一方で、リスクの低い更新は標準トレーニングに進む。
我々は,有害な意図信号が前世代のアクティベーションから予測可能であること,および判定スコアが効果的なハイリコール安全ガイダンスを提供することを実証的に検証した。
複数のモデルファミリやアタックシナリオにわたって、リスク推定アプローチによる適応的正規化は、標準的な微調整に比べて攻撃成功率を一貫して低下させ、下流のパフォーマンスを保ち、推論時間コストを追加しない。
この研究は、実用性を犠牲にすることなく安全を維持するための原則的なメカニズムを実証している。
関連論文リスト
- Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Proximal Ranking Policy Optimization for Practical Safety in Counterfactual Learning to Rank [64.44255178199846]
本稿では,ユーザ行動に関する仮定を伴わずにデプロイの安全性を提供する,PRPO (proximal ranking Policy Optimization) という新しいアプローチを提案する。
PRPOは、安全なランキングモデルとは相容れないランキング行動を学ぶためのインセンティブを取り除きます。
実験の結果,PRPOは既存の安全逆性評価手法よりも高い性能を示すことがわかった。
論文 参考訳(メタデータ) (2024-09-15T22:22:27Z) - Practical and Robust Safety Guarantees for Advanced Counterfactual Learning to Rank [64.44255178199846]
我々は、既存の安全CLTRアプローチを一般化し、最先端の2重ロバストCLTRに適用する。
また,ユーザ行動に関する仮定を伴わずにデプロイの安全性を提供するPRPO(proximal ranking Policy Optimization)を提案する。
PRPOは、デプロイ時に無条件の安全性を持つ最初の方法であり、現実世界のアプリケーションの堅牢な安全性に変換される。
論文 参考訳(メタデータ) (2024-07-29T12:23:59Z) - Safe Reinforcement Learning with Learned Non-Markovian Safety Constraints [15.904640266226023]
我々は、安全に関する部分的状態行動軌跡の貢献を評価するために、信用割当を行う安全モデルの設計を行う。
学習された安全モデルを用いて安全なポリシーを最適化する有効なアルゴリズムを導出する。
安全報酬と安全コンプライアンスのトレードオフ係数を動的に適用する手法を考案する。
論文 参考訳(メタデータ) (2024-05-05T17:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。