論文の概要: SafeSteer: Localized On-Policy Distillation for Efficient Safety Alignment
- arxiv url: http://arxiv.org/abs/2606.02530v1
- Date: Mon, 01 Jun 2026 17:38:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.543222
- Title: SafeSteer: Localized On-Policy Distillation for Efficient Safety Alignment
- Title(参考訳): SafeSteer: 効率的な安全アライメントのためのローカライズオン・ポリシィ蒸留
- Authors: Hao Li, Jingkun An, Zijun Song, Pengyu Zhu, Rui Li, Hao Wang, Wendi Feng, Yesheng Liu, Lijun Li, Jin-Ge Yao, Lei Sha,
- Abstract要約: 我々は、安全機能は本質的に出力分布内では不足しているため、アライメントにはグローバルなトレードオフではなく、局所的な修正が必要であると論じる。
安全トークンに限定したオンライン蒸留を行うSafeSteerを提案する。
多様なモデルにまたがる実験結果から、SafeSteerは既存の方法と比較して安全性と一般的な機能とのトレードオフが優れていることが判明した。
- 参考スコア(独自算出の注目度): 16.581900093127516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning Large Language Models (LLMs) with human values often degrades their general capabilities, termed the alignment tax. Existing methods mitigate this by balancing dual objectives, which heavily rely on massive general-purpose data or auxiliary reward models. In this paper, we argue that, because safety features are inherently sparse within the output distribution, alignment requires localized modifications rather than global trade-offs. To this end, we propose SafeSteer, which performs on-policy distillation confined to safety tokens. First, we construct a safety teacher via activation steering. Based on this teacher, we develop a safety token selection algorithm. Consequently, SafeSteer restricts the reverse KL penalty to these tokens during training to preserve general capabilities. Experimental results across diverse models show that our SafeSteer achieves a superior trade-off between safety and general capability compared with existing methods, attaining strong safety performance on seven safety benchmarks with only minimal degradation on five general capability benchmarks. Notably, SafeSteer requires only 100 harmful samples without using any general-purpose data, less than 1% of what previous baselines used, considerably reducing alignment cost. More details are on our project page at https://anjingkun.github.io/SafeSteer.
- Abstract(参考訳): 人的価値を持つ大規模言語モデル(LLM)の調整は、アライメント税(アライメント税)と呼ばれる一般的な能力を低下させることが多い。
既存の方法は、大規模な汎用データや補助的な報酬モデルに大きく依存している2つの目的のバランスをとることで、これを緩和する。
本稿では,安全特徴が本質的に出力分布内に分散しているため,アライメントにはグローバルなトレードオフではなく,局所的な修正が必要であることを論じる。
この目的のために,安全トークンに限定したオンライン蒸留を行うSafeSteerを提案する。
まず,アクティベーションステアリングによる安全教師の構築を行う。
この教師に基づき,安全トークン選択アルゴリズムを開発した。
その結果、SafeSteerは、一般的な機能を維持するためにトレーニング中にこれらのトークンに逆KLペナルティを制限します。
多様なモデルを対象とした実験結果から,SafeSteerは既存の手法と比較して安全性と汎用能力のトレードオフに優れており,安全性能は5つの汎用性能ベンチマークで最小限に抑えられた7つのベンチマークで高い結果が得られた。
特にSafeSteerは、汎用データを使用しなくても100の有害サンプルしか必要とせず、以前のベースラインの1%以下で、アライメントコストを大幅に削減している。
詳細はプロジェクトのページ(https://anjingkun.github.io/SafeSteer.com)にある。
関連論文リスト
- Reducing the Safety Tax in LLM Safety Alignment with On-Policy Self-Distillation [22.972195366680694]
安全アライメントは、しばしば推論能力の犠牲で有害なクエリに対する堅牢性を改善する。
OPSAと呼ばれる安全アライメントのための自己蒸留法について検討した。
OPSAは、外部の自己蒸留や外部のティーチンガー蒸留よりも安全性の高いトレードオフを実現している。
論文 参考訳(メタデータ) (2026-05-14T03:40:07Z) - Token-level Data Selection for Safe LLM Fine-tuning [15.039068315115372]
カスタムデータセット上での微調整大型言語モデル(LLM)は、これらのモデルを特定のドメインやアプリケーションに適用するための標準的なアプローチとなっている。
近年の研究では、このような微調整がモデルの安全性を著しく低下させる可能性があることが示されている。
本稿では,安全劣化モデルとユーティリティ指向モデルとの損失差を測定することにより,各トークンの安全性リスクを定量化する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-01T16:52:05Z) - THINKSAFE: Self-Generated Safety Alignment for Reasoning Models [60.10077024249373]
外部の教師がいなくても安心して安心できるフレームワークであるThinkSafeを提案する。
我々の重要な洞察は、コンプライアンスは安全メカニズムを抑制するが、モデルはしばしば害を特定するために潜伏した知識を保持することである。
DeepSeek-R1-DistillとQwen3の実験では、ThinkSafeは推論能力を維持しながら安全性を大幅に向上している。
論文 参考訳(メタデータ) (2026-01-30T16:31:02Z) - UnsafeChain: Enhancing Reasoning Model Safety via Hard Cases [57.69882799751655]
さまざまなソースを持つハードプロンプトから構築された安全アライメントデータセットであるUnsafeChainをリリースする。
我々は3つの大きな推論モデル(LRM)を微調整し、それらを最近のSafeChainとSTAR-1と比較する。
UnsafeChainは、1Kサブセットのマッチングやベースラインのパフォーマンスを越えながら、従来よりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2025-07-29T10:08:52Z) - HoliSafe: Holistic Safety Benchmarking and Modeling for Vision-Language Model [58.12612140992874]
我々は、安全で安全でない5つの画像テキストの組み合わせにまたがる、全体的な安全データセットとベンチマークである textbfHoliSafeを紹介した。
また,入力画像の有害性を評価するために,視覚ガードモジュール(VGM)を用いて,VLMの安全性を高めるための新しいモジュラーフレームワークを提案する。
実験により、HoliSafeでトレーニングされたVGMを使用したSafe-VLMは、複数のVLMベンチマークで最先端の安全性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-06-05T07:26:34Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Safe Vision-Language Models via Unsafe Weights Manipulation [75.04426753720551]
我々は、異なるレベルの粒度で安全性を評価する新しい指標セットであるSafe-Groundを導入し、安全性の評価を見直した。
我々は異なる方向を採り、トレーニングなしでモデルをより安全にできるかどうかを探り、Unsafe Weights Manipulation (UWM)を導入します。
UWMは、セーフとアンセーフのインスタンスのキャリブレーションセットを使用して、セーフとアンセーフのコンテンツのアクティベーションを比較し、後者を処理する上で最も重要なパラメータを特定する。
論文 参考訳(メタデータ) (2025-03-14T17:00:22Z) - Safe Reinforcement Learning with Learned Non-Markovian Safety Constraints [15.904640266226023]
我々は、安全に関する部分的状態行動軌跡の貢献を評価するために、信用割当を行う安全モデルの設計を行う。
学習された安全モデルを用いて安全なポリシーを最適化する有効なアルゴリズムを導出する。
安全報酬と安全コンプライアンスのトレードオフ係数を動的に適用する手法を考案する。
論文 参考訳(メタデータ) (2024-05-05T17:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。