論文の概要: Rethinking Safety in LLM Fine-tuning: An Optimization Perspective
- arxiv url: http://arxiv.org/abs/2508.12531v1
- Date: Sun, 17 Aug 2025 23:46:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.843998
- Title: Rethinking Safety in LLM Fine-tuning: An Optimization Perspective
- Title(参考訳): LLMファインチューニングにおける安全性の再考:最適化の観点から
- Authors: Minseon Kim, Jin Myung Kwak, Lama Alssum, Bernard Ghanem, Philip Torr, David Krueger, Fazl Barez, Adel Bibi,
- Abstract要約: 我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
- 参考スコア(独自算出の注目度): 56.31306558218838
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Fine-tuning language models is commonly believed to inevitably harm their safety, i.e., refusing to respond to harmful user requests, even when using harmless datasets, thus requiring additional safety measures. We challenge this belief through systematic testing, showing that poor optimization choices, rather than inherent trade-offs, often cause safety problems, measured as harmful responses to adversarial prompts. By properly selecting key training hyper-parameters, e.g., learning rate, batch size, and gradient steps, we reduce unsafe model responses from 16\% to approximately 5\%, as measured by keyword matching, while maintaining utility performance. Based on this observation, we propose a simple exponential moving average (EMA) momentum technique in parameter space that preserves safety performance by creating a stable optimization path and retains the original pre-trained model's safety properties. Our experiments on the Llama families across multiple datasets (Dolly, Alpaca, ORCA) demonstrate that safety problems during fine-tuning can largely be avoided without specialized interventions, outperforming existing approaches that require additional safety data while offering practical guidelines for maintaining both model performance and safety during adaptation.
- Abstract(参考訳): 微調整言語モデルは、安全を損なうこと、すなわち有害なユーザー要求への応答を拒否すること、無害なデータセットを使用する場合であっても、追加の安全対策を必要とすることが一般的である。
我々は、この信念を体系的なテストを通じて挑戦し、固有のトレードオフではなく、最適化の貧弱な選択が、しばしば、敵のプロンプトに対する有害な応答として測定される安全上の問題を引き起こすことを示した。
キートレーニングのハイパーパラメータ,例えば学習率,バッチサイズ,勾配ステップを適切に選択することにより,キーワードマッチングによって測定された安全でないモデル応答を16\%から約5\%に削減し,実用性能を維持した。
そこで本研究では,パラメータ空間における簡易指数移動平均(EMA)モーメント手法を提案する。
複数のデータセット(Dolly, Alpaca, ORCA)にまたがるLlamaファミリーに関する実験では、微調整中の安全性の問題が特別な介入なしに回避できることが実証された。
関連論文リスト
- Gradient Surgery for Safe LLM Fine-Tuning [16.652518818576425]
ファインチューニング・アズ・ア・サービス(Funture-tuning-as-a-Service)は、ユーザのファインチューニングデータセットにいくつかの悪意のあるサンプルを混在させて、Large Language Models(LLM)の安全性アライメントを損なう重大な脆弱性を導入する。
既存のソリューションは有害比に非常に敏感であり、防御は有害比が増加するにつれて著しく低下する。
そこで本研究では,勾配手術を応用したSafeGradを提案する。
論文 参考訳(メタデータ) (2025-08-10T04:13:41Z) - Shape it Up! Restoring LLM Safety during Finetuning [66.46166656543761]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Mitigating Fine-tuning Risks in LLMs via Safety-Aware Probing Optimization [7.1060720569792215]
微調整された大きな言語モデル(LLM)は、必然的に安全性を損なう可能性がある。
安全リスクの軽減を目的とした安全意識探索(SAP)フレームワークを導入する。
実験の結果,SAPは従来の微調整モデルよりも有害性を効果的に低減できることがわかった。
論文 参考訳(メタデータ) (2025-05-22T14:52:10Z) - Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing [12.986006070964772]
安全性アライメントは、現実世界のAIアプリケーションにとって重要な研究トピックである。
本研究はまず,モデルの有用性を犠牲にすることなく,このような脆弱性を除去することの難しさを明らかにした。
本手法は,安全性を維持しつつモデルの有用性を高め,トレードオフを改善できる。
論文 参考訳(メタデータ) (2025-02-04T09:31:54Z) - Safe to Serve: Aligning Instruction-Tuned Models for Safety and Helpfulness [0.0]
大規模言語モデル (LLM) は複雑な推論やテキスト生成において顕著な能力を示した。
LLMは、問題のある入力を誘導すると、不安全または偏りの応答を不注意に生成することができる。
本研究は、有用なコンテンツと無害コンテンツの両方を生成する言語モデルを開発する上で、重要な課題に対処する。
論文 参考訳(メタデータ) (2024-11-26T06:52:22Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Meta-Learning Priors for Safe Bayesian Optimization [72.8349503901712]
メタ学習アルゴリズムであるF-PACOHを構築し,データ不足の設定において確実な定量化を実現する。
コアコントリビューションとして、安全に適合した事前をデータ駆動で選択するための新しいフレームワークを開発する。
ベンチマーク関数と高精度動作系において,我々のメタ学習先行が安全なBOアプローチの収束を加速することを示す。
論文 参考訳(メタデータ) (2022-10-03T08:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。