論文の概要: Preventing Catastrophic Forgetting: Behavior-Aware Sampling for Safer Language Model Fine-Tuning
- arxiv url: http://arxiv.org/abs/2510.21885v1
- Date: Thu, 23 Oct 2025 20:34:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.634504
- Title: Preventing Catastrophic Forgetting: Behavior-Aware Sampling for Safer Language Model Fine-Tuning
- Title(参考訳): カタストロフィック・フォーミングの防止:サファー言語モデルファインチューニングのための行動認識サンプリング
- Authors: Anh Pham, Mihir Thalanki, Michael Sun, Aditya Chaloo, Ankita Gupta, Tian Xia, Aditya Mate, Ehimwenma Nosakhare, Soundararajan Srinivasan,
- Abstract要約: 大きな言語モデルは、良質なデータを微調整すると、以前整列した安全行動を失うことが多い。
本稿では,2つの相補的要因に基づいて安全事例を選択する行動認識型サンプリングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.962376414368846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models often lose previously aligned safety behaviors when fine-tuned on benign data, a phenomenon known as catastrophic forgetting. Prior work shows that adding random safety examples can mitigate this effect, but it remains unclear which examples are most effective. We propose a behavior-aware sampling framework that selects safety examples based on two complementary factors: instruction-response behavior (e.g., refusal versus compliance) and semantic diversity across harm categories. Systematic evaluation shows that this approach substantially reduces harmful outputs while maintaining helpfulness, achieving up to a 41% reduction in harmfulness with only 0.5% additional training data. These results highlight how targeted data selection can improve the safety and efficiency of fine-tuning at scale.
- Abstract(参考訳): 大規模な言語モデルは、破滅的な忘れ物として知られる、良心的なデータに基づいて微調整された場合、以前整列した安全行動を失うことが多い。
以前の研究は、ランダムな安全例を追加することでこの効果を緩和できることを示したが、どの例が最も効果的かは定かではない。
本稿では,2つの相補的要因に基づいて安全事例を選択する行動認識型サンプリングフレームワークを提案する。
システム評価の結果、この手法は有用性を保ちながら有害なアウトプットを著しく低減し、最大41%の有害度を0.5%追加のトレーニングデータで達成している。
これらの結果は、ターゲットデータの選択が大規模な微調整の安全性と効率をいかに改善するかを強調している。
関連論文リスト
- Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning? [68.82210578851442]
メカニスティックな解釈可能性レンズによる推論モデルにおいて、なぜ安全アライメントが失敗するのかを考察する。
トークン位置における拒絶意図の追跡のための線形探索手法を用いて,textbfrefusal cliff と呼ばれる現象を発見した。
提案手法は,最大断崖を示す訓練例を識別し,推論モデルの安全性を向上する手法であるtextbfCliff-as-a-Judge を提案する。
論文 参考訳(メタデータ) (2025-10-07T15:32:59Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Towards Resilient Safety-driven Unlearning for Diffusion Models against Downstream Fine-tuning [24.176983833455413]
テキスト・ツー・イメージ(T2I)拡散モデルは、印象的な画像生成品質を達成し、パーソナライズされたアプリケーション向けに微調整されている。
これらのモデルはしばしば有毒な事前訓練データから安全でない行動を継承し、安全性の懸念が高まる。
本稿では、下流の微調整に対するレジリエンスを高める安全駆動型アンラーニングフレームワークResAlignを提案する。
論文 参考訳(メタデータ) (2025-07-22T07:40:16Z) - Panacea: Mitigating Harmful Fine-tuning for Large Language Models via Post-fine-tuning Perturbation [58.7395356511539]
有害な微調整攻撃は、微調整サービスに重大なセキュリティリスクをもたらす。
主流防衛は、後の有害な微調整攻撃がより効果的でないように、モデルを予防接種することを目的としている。
微調整後のモデルに適用可能な適応的摂動を最適化するパナセアを提案する。
論文 参考訳(メタデータ) (2025-01-30T02:47:09Z) - Safety-Aware Fine-Tuning of Large Language Models [29.5636201427693]
細調整された大規模言語モデル(LLM)は、個々のニーズや好みに合わせてモデルを調整するための一般的なプラクティスとして現れています。
本稿では,有害な可能性のあるデータを自動検出・除去する,新たなSAFT(Safety-Aware Fine-Tuning)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-13T21:24:25Z) - Mitigating Fine-tuning based Jailbreak Attack with Backdoor Enhanced Safety Alignment [56.2017039028998]
言語モデル・アズ・ア・サービス(LM)のファインチューニングは、特にファインチューニングベースのジェイルブレイク攻撃(FJAttack)に対する新たな脅威をもたらす
本稿では,バックドア攻撃の概念と類似性から着想を得たバックドア強化安全アライメント手法を提案する。
我々の総合的な実験は、バックドア強化安全アライメント(Backdoor Enhanced Safety Alignment)を通じて、悪質に微調整されたLSMは、良質な性能を損なうことなく、オリジナルのアライメントモデルと同じような安全性性能を達成することを実証している。
論文 参考訳(メタデータ) (2024-02-22T21:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。