論文の概要: Few Tokens, Big Leverage: Preserving Safety Alignment by Constraining Safety Tokens during Fine-tuning
- arxiv url: http://arxiv.org/abs/2603.07445v1
- Date: Sun, 08 Mar 2026 03:42:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.596748
- Title: Few Tokens, Big Leverage: Preserving Safety Alignment by Constraining Safety Tokens during Fine-tuning
- Title(参考訳): 微調整時の安全トークンの制限による安全調整の確保
- Authors: Guoli Wang, Haonan Shi, Tu Ouyang, An Wang,
- Abstract要約: 大規模言語モデル(LLM)は、ダウンストリームタスクでうまく機能するために細調整(FT)を必要とすることが多い。
FTは、トレーニングデータセットが良性データのみを含む場合でも、安全アライメントドリフトを誘導することができる。
本稿では,安全トークンに対するモデルの信頼性を安定化させる,制約付きトークンによる安全アライメントの保存(PACT)という微調整フレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.839980912290382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) often require fine-tuning (FT) to perform well on downstream tasks, but FT can induce safety-alignment drift even when the training dataset contains only benign data. Prior work shows that introducing a small fraction of harmful data can substantially compromise LLM refusal behavior, causing LLMs to comply with harmful requests. Existing defense methods often rely on model-wide interventions, such as restricting which parameters are updated or injecting additional safety data, which can limit generality and degrade downstream task performance. To address these limitations, we propose a fine-tuning framework called Preserving Safety Alignment via Constrained Tokens (PACT), which stabilizes the model's confidence on safety tokens. Our approach is motivated by the empirical observation that safety-aligned behavior is reflected in the model's token-level output confidence and is often concentrated on a small subset of safety-related tokens. During downstream fine-tuning, we regularize the fine-tuned model to match the aligned reference model's confidence on safety-related tokens at each response step, while leaving non-safety tokens largely unconstrained to allow effective task adaptation. This targeted constraint prevents alignment drift without imposing global restrictions that typically trade off with model utility.
- Abstract(参考訳): 大規模言語モデル(LLM)は、下流のタスクでうまく機能するために微調整(FT)を必要とすることが多いが、訓練データセットが良質なデータのみを含む場合であっても、FTは安全アライメントドリフトを誘導することができる。
先行研究では、有害なデータのごく一部を導入すると、LSMの拒絶行動が著しく損なわれ、LSMが有害な要求に従うことが示されている。
既存の防衛方法は、どのパラメータが更新されるかを制限することや、追加の安全データを注入することなど、モデル全体の介入に依存することが多い。
これらの制約に対処するため,制約付きトークンによる安全調整(PACT)と呼ばれる微調整フレームワークを提案し,安全トークンに対するモデルの信頼性を安定化させる。
本手法は, 安全対応行動がトークンレベルの出力信頼度に反映され, 安全関連トークンの小さなサブセットに集中する,という経験的観察に動機付けられている。
下流の微調整中、我々は調整済みの細調整モデルを規則化し、各応答ステップにおける安全関連トークンに対する整列参照モデルの信頼度に適合させながら、安全でないトークンをほとんど拘束せず、効果的なタスク適応を可能にする。
この制約は、通常モデルユーティリティとトレードオフするグローバルな制約を課すことなく、アライメントドリフトを防止する。
関連論文リスト
- Token-level Data Selection for Safe LLM Fine-tuning [15.039068315115372]
カスタムデータセット上での微調整大型言語モデル(LLM)は、これらのモデルを特定のドメインやアプリケーションに適用するための標準的なアプローチとなっている。
近年の研究では、このような微調整がモデルの安全性を著しく低下させる可能性があることが示されている。
本稿では,安全劣化モデルとユーティリティ指向モデルとの損失差を測定することにより,各トークンの安全性リスクを定量化する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-01T16:52:05Z) - BarrierSteer: LLM Safety via Learning Barrier Steering [83.12893815611052]
BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。
BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2026-02-23T18:19:46Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - One Trigger Token Is Enough: A Defense Strategy for Balancing Safety and Usability in Large Language Models [20.42976162135529]
大規模言語モデル(LLM)は、仮想アシスタント、自動コード生成、科学研究など、さまざまな領域で広く使われている。
我々は,与えられた安全対応LLMの安全トリガトークンを識別し,明示的に復号する,シンプルで効果的な防衛アルゴリズムであるtextttD-STT を提案する。
論文 参考訳(メタデータ) (2025-05-12T01:26:50Z) - Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - LookAhead Tuning: Safer Language Models via Partial Answer Previews [62.529794567687354]
ファインチューニングにより、大きな言語モデルは特定のドメインに適応できるが、しばしば以前に確立された安全アライメントを損なう。
LookAhead Tuningは、微調整時の安全性を維持する軽量で効果的なデータ駆動型アプローチである。
論文 参考訳(メタデータ) (2025-03-24T18:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。