論文の概要: Slow Tuning and Low-Entropy Masking for Safe Chain-of-Thought Distillation
- arxiv url: http://arxiv.org/abs/2508.09666v2
- Date: Fri, 15 Aug 2025 05:10:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 12:50:03.101672
- Title: Slow Tuning and Low-Entropy Masking for Safe Chain-of-Thought Distillation
- Title(参考訳): 安全なチェーンオブソート蒸留のためのスローチューニングと低エントロピーマスキング
- Authors: Ziyang Ma, Qingyue Yuan, Linhai Zhang, Deyu Zhou,
- Abstract要約: Slow Tuning と Low-Entropy Masking Distillation (SLowED) の2つのモジュール, Slow Tuning と Low-Entropy Masking を提案する。
Slow Tuningはモデルウェイトの変化の規模を縮小し、初期ウェイト分布に近い近隣空間のモデルウェイトを最適化する。
低エントロピーマスクは、不要な学習対象と見なされる低エントロピートークンをマスクし、それらを微調整から除外する。
- 参考スコア(独自算出の注目度): 20.42460078279735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous chain-of-thought (CoT) distillation methods primarily focused on enhancing the reasoning capabilities of Small Language Models (SLMs) by utilizing high-quality rationales generated by powerful Large Language Models (LLMs, e.g., GPT-4). However, few works have noted the negative effects on SLM safety brought by the training, which are revealed in this study. Although there are works on safety alignment that fine-tune language models or manipulate model weights to defend against harmful inputs, they require extra computation or annotated data, and probably impact the reasoning ability of SLMs. In this paper, we investigate how to maintain the safety of SLMs during the CoT distillation process. Specifically, we propose a safe distillation method, Slow Tuning and Low-Entropy Masking Distillation (SLowED), containing two modules: Slow Tuning and Low-Entropy Masking. Slow Tuning scales down the magnitude of model weight changes to optimize the model weights in the neighboring space near the initial weight distribution. Low-Entropy Masking masks low-entropy tokens, which are regarded as unnecessary learning targets, to exclude them from fine-tuning. Experiments on three SLMs (Qwen2.5-1.5B, Llama-3.2-1B, BLOOM-1.1B) across reasoning benchmarks (BBH, BB-Sub, ARC, AGIEval) and safety evaluation (AdvBench) show that SLowED retains the safety of SLMs and comparably improves their reasoning capability compared to existing distillation methods. Furthermore, our ablation study presents the effectiveness of Slow Tuning and Low-Entropy Masking, with the former maintaining the model's safety in the early stage and the latter prolonging the safe training epochs.
- Abstract(参考訳): 従来のCoT蒸留法は, 強大言語モデル(LLMs, eg, GPT-4)が生み出す高品質な合理性を利用して, 小言語モデル(SLMs)の推論能力の向上に重点を置いていた。
しかし,本研究で明らかになったSLMの安全性に対する否定的な影響を指摘する研究はほとんどない。
有害な入力から守るために、微調整言語モデルやモデルの重みを操作できる安全アライメントの研究は存在するが、余分な計算や注釈付きデータが必要であり、おそらくSLMの推論能力に影響を与える。
本稿では,CoT蒸留プロセスにおけるSLMの安全性の維持方法について検討する。
具体的には, スローチューニングと低エントロピーマスキング蒸留 (SLowED) という2つのモジュールを含む安全な蒸留法を提案する。
Slow Tuningはモデルウェイトの変化の規模を縮小し、初期ウェイト分布に近い近隣空間のモデルウェイトを最適化する。
低エントロピーマスクは、不要な学習対象と見なされる低エントロピートークンをマスクし、それらを微調整から除外する。
3つのSLM(Qwen2.5-1.5B, Llama-3.2-1B, BLOOM-1.1B)の推理ベンチマーク(BBH, BB-Sub, ARC, AGIEval)および安全性評価(AdvBench)による実験では、SLowEDはSLMの安全性を維持し、既存の蒸留法と比較して推論能力を向上させる。
さらに, 緩やかなチューニングと低エントロピーマスキングの有効性について検討し, 前者は早期にモデルの安全性を維持し, 後者は安全なトレーニング期間を延長した。
関連論文リスト
- LoRA is All You Need for Safety Alignment of Reasoning LLMs [14.561805865086948]
本稿では,SFT に LoRA を使用すれば,その推論能力を損なうことなく,安全のためにモデルを効果的に整列させることができることを示す。
これは、安全ウェイト更新を低ランク空間に制限することは、推論ウェイトとの干渉を最小限にするからである。
論文 参考訳(メタデータ) (2025-07-22T23:25:16Z) - LoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuning [61.594212398272184]
Low-Rank Extrapolation (LoX)は、良質で悪意のある微調整攻撃に対する堅牢性を改善する。
LoXは攻撃成功率を11%から54%に下げる。
論文 参考訳(メタデータ) (2025-06-18T16:30:02Z) - Reshaping Representation Space to Balance the Safety and Over-rejection in Large Audio Language Models [50.89022445197919]
Large Audio Language Models (LALM) は、Large Language Models (LLM) の機能を拡張した。
近年の研究では、LALMは安全調整が不十分なため、有害なクエリに対して脆弱であることが明らかになっている。
論文 参考訳(メタデータ) (2025-05-26T08:25:25Z) - Noise Injection Systemically Degrades Large Language Model Safety Guardrails [6.841549440317724]
大規模言語モデル(LLM)の安全ガードレールは有害な出力を防ぐ重要な要素である。
本稿では,モデルアクティベーションにノイズを系統的に注入することにより,LLMの安全性向上のロバスト性について検討する。
論文 参考訳(メタデータ) (2025-05-16T01:33:25Z) - LookAhead Tuning: Safer Language Models via Partial Answer Previews [38.7113305301502]
LookAhead Tuningは、微調整時のモデルの安全性の低下を軽減する。
2つの単純で低リソースで効果的なデータ駆動手法は、部分的な回答プレフィックスをプレビューすることでトレーニングデータを修正する。
論文 参考訳(メタデータ) (2025-03-24T18:11:42Z) - Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging [43.44112117935541]
下流タスクのための細調整された大型言語モデル(LLM)は、安全に整合したLLMの安全性を低下させる。
下流タスク性能を向上しつつ, LLM 固有の安全性を維持する手法を提案する。
論文 参考訳(メタデータ) (2024-12-27T08:03:22Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models [65.06446825020578]
大規模言語モデル(LLM)が人間の嗜好に合わせて行動し、推論中に有害な行動を防ぐためには、安全性の調整が不可欠である。
我々は, LLMの安全景観をナビゲートすることで, LLMの微調整のリスクを測定することを目的としている。
論文 参考訳(メタデータ) (2024-05-27T17:31:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。