論文の概要: Guardrails in Logit Space: Safety Token Regularization for LLM Alignment
- arxiv url: http://arxiv.org/abs/2604.17210v1
- Date: Sun, 19 Apr 2026 02:41:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.392462
- Title: Guardrails in Logit Space: Safety Token Regularization for LLM Alignment
- Title(参考訳): ログスペースにおけるガードレール: LLMアライメントのための安全トークン規則化
- Authors: Thong Bach, Truyen Tran,
- Abstract要約: 新しいドメイン上の細調整のよく整合した大きな言語モデル(LLM)は、安全アライメントを低下させることが多い。
既存の安全アライメント技術は主に事前訓練に焦点を当てており、微調整されたモデルは行動シフトに弱いままである。
我々は、微調整時に安全性を維持するための軽量な方法である安全トークン規則化(STR)を導入する。
- 参考スコア(独自算出の注目度): 9.180430520680611
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning well-aligned large language models (LLMs) on new domains often degrades their safety alignment, even when using benign datasets. Existing safety alignment techniques primarily focus on pretraining, leaving fine-tuned models vulnerable to behavioral shifts. In this work, we introduce safety token regularization (STR), a lightweight method designed to preserve safety properties during fine-tuning. Our approach identifies salient tokens from rejection templates of well-aligned models and constrains their associated logits during training, preventing the loss of critical safety behaviors. Unlike reinforcement learning or preference optimization methods, STR requires minimal additional computation and seamlessly integrates with parameter-efficient fine-tuning techniques such as LoRA. Comprehensive experiments demonstrate that our approach achieves safety performance on par with state-of-the-art methods, while preserving task-specific utility and requiring minimal implementation overhead. Furthermore, we show that safety token regularization enhances training stability and overall performance beyond safety considerations alone. This work offers a practical and readily deployable strategy for continual safety alignment in fine-tuned LLMs.
- Abstract(参考訳): 新しいドメイン上の微調整で整列した大きな言語モデル(LLM)は、良質なデータセットを使用しても、安全アライメントを低下させることが多い。
既存の安全アライメント技術は主に事前訓練に焦点を当てており、微調整されたモデルは行動シフトに弱いままである。
本研究では, 安全トークン規則化(STR)を導入し, 微調整時の安全特性の保全を目的とした軽量な手法を提案する。
提案手法では, 整列モデルの拒絶テンプレートから有意なトークンを識別し, トレーニング中に関連するロジットを制限し, 重大な安全行動の喪失を防止する。
強化学習や選好最適化とは異なり、STRは最小限の追加計算を必要とし、LoRAのようなパラメータ効率の高い微調整技術とシームレスに統合する。
総合的な実験により,本手法はタスク固有のユーティリティを保ち,実装オーバーヘッドを最小限に抑えつつ,最先端の手法と同等の安全性を実現することが実証された。
さらに,安全トークンの規則化により,安全性だけでなく,トレーニングの安定性や全体的な性能も向上することを示す。
本研究は、微調整LDMにおける連続的安全アライメントのための実用的で容易に展開可能な戦略を提供する。
関連論文リスト
- Preventing Safety Drift in Large Language Models via Coupled Weight and Activation Constraints [19.721346201616782]
Coupled Weight and Activation Constraints (CWAC) は、ウェイト更新に事前計算された安全部分空間を同時に適用する新しいアプローチである。
CWACは、微調整精度に最小限の影響を伴って、最低の有害スコアを一貫して達成する。
論文 参考訳(メタデータ) (2026-04-14T07:17:55Z) - Few Tokens, Big Leverage: Preserving Safety Alignment by Constraining Safety Tokens during Fine-tuning [4.839980912290382]
大規模言語モデル(LLM)は、ダウンストリームタスクでうまく機能するために細調整(FT)を必要とすることが多い。
FTは、トレーニングデータセットが良性データのみを含む場合でも、安全アライメントドリフトを誘導することができる。
本稿では,安全トークンに対するモデルの信頼性を安定化させる,制約付きトークンによる安全アライメントの保存(PACT)という微調整フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-08T03:42:55Z) - BarrierSteer: LLM Safety via Learning Barrier Steering [83.12893815611052]
BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。
BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2026-02-23T18:19:46Z) - Q-realign: Piggybacking Realignment on Quantization for Safe and Efficient LLM Deployment [55.14890249389052]
既存の防衛は、安全回復を微調整に埋め込んだり、微調整による修正に先立って微調整に頼ったりしている。
我々は,ポストトレーニング量子化に基づくポストホック防御手法であるtextttQ-realign を提案する。
私たちの仕事は、安全を意識したデプロイメントのための実践的でターンキーなソリューションを提供します。
論文 参考訳(メタデータ) (2026-01-13T00:07:24Z) - UpSafe$^\circ$C: Upcycling for Controllable Safety in Large Language Models [67.91151588917396]
大規模言語モデル(LLM)は、幅広いタスクで顕著な進歩を遂げているが、有害なコンテンツ生成やジェイルブレイク攻撃といった安全リスクに弱いままである。
安全に配慮したリサイクルによるLCMの安全性向上のための統合フレームワークであるUpSafe$circ$Cを提案する。
この結果から, 静的アライメントから動的, モジュール, 推論対応制御への移行という, LLMの安全性の新たな方向性が明らかになった。
論文 参考訳(メタデータ) (2025-10-02T16:43:33Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - LookAhead Tuning: Safer Language Models via Partial Answer Previews [62.529794567687354]
ファインチューニングにより、大きな言語モデルは特定のドメインに適応できるが、しばしば以前に確立された安全アライメントを損なう。
LookAhead Tuningは、微調整時の安全性を維持する軽量で効果的なデータ駆動型アプローチである。
論文 参考訳(メタデータ) (2025-03-24T18:11:42Z) - Safe Reinforcement Learning with Learned Non-Markovian Safety Constraints [15.904640266226023]
我々は、安全に関する部分的状態行動軌跡の貢献を評価するために、信用割当を行う安全モデルの設計を行う。
学習された安全モデルを用いて安全なポリシーを最適化する有効なアルゴリズムを導出する。
安全報酬と安全コンプライアンスのトレードオフ係数を動的に適用する手法を考案する。
論文 参考訳(メタデータ) (2024-05-05T17:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。