論文の概要: Curvature-Aware Safety Restoration In LLMs Fine-Tuning
- arxiv url: http://arxiv.org/abs/2511.18039v1
- Date: Sat, 22 Nov 2025 12:33:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.59805
- Title: Curvature-Aware Safety Restoration In LLMs Fine-Tuning
- Title(参考訳): LLMファインチューニングにおける曲率認識型安全修復
- Authors: Thong Bach, Thanh Nguyen-Tang, Dung Nguyen, Thao Minh Le, Truyen Tran,
- Abstract要約: 下流タスクのための微調整大型言語モデル(LLM)は、しばしば安全性を損なう。
影響関数と2階最適化を利用する曲率対応アライメント復元法を提案する。
提案手法は, 実用性を維持しつつ, 学習性能を向上しながら, 有害な応答を効率的に低減する。
- 参考スコア(独自算出の注目度): 25.423475514922725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning Large Language Models (LLMs) for downstream tasks often compromises safety alignment, even when using parameter-efficient methods like LoRA. In this work, we uncover a notable property: fine-tuned models preserve the geometric structure of their loss landscapes concerning harmful content, regardless of the fine-tuning method employed. This suggests that safety behaviors are not erased but shifted to less influential regions of the parameter space. Building on this insight, we propose a curvature-aware alignment restoration method that leverages influence functions and second-order optimization to selectively increase loss on harmful inputs while preserving task performance. By navigating the shared geometry between base and fine-tuned models, our method discourages unsafe outputs while preserving task-relevant performance, avoiding full reversion and enabling precise, low-impact updates. Extensive evaluations across multiple model families and adversarial settings show that our approach efficiently reduces harmful responses while maintaining or even improving utility and few-shot learning performance.
- Abstract(参考訳): 下流タスク用の微調整大型言語モデル(LLM)は、LoRAのようなパラメータ効率のよい手法を使用しても、安全アライメントを損なうことが多い。
細調整モデルでは, 有害な内容に関する損失景観の幾何学的構造を, 微調整法によらず保存する。
このことは、安全行動は消去されるのではなく、パラメータ空間のより影響力の低い領域に移されることを示している。
この知見に基づいて,作業性能を維持しながら有害入力の損失を選択的に増加させるために,影響関数と2次最適化を利用する曲率を考慮したアライメント復元手法を提案する。
ベースモデルと微調整モデル間の共有幾何をナビゲートすることにより、タスク関連性能を維持しながら安全でない出力を回避し、完全なリバージョンを回避し、正確で低インパクトな更新を可能にする。
提案手法は, 実用性を維持し, 改善しながら, 有害な応答を効果的に低減し, かつ, 実用性や数発の学習性能も向上することを示す。
関連論文リスト
- Beyond Sharp Minima: Robust LLM Unlearning via Feedback-Guided Multi-Point Optimization [37.965539404740774]
より安定したパラメータ領域を明示的に求める双方向フィードバック誘導最適化フレームワークを提案する。
WMDP と MUSE のベンチマーク実験により,本手法は再学習および脱獄攻撃に対して極めて堅牢であることが示された。
論文 参考訳(メタデータ) (2025-09-24T15:23:46Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Towards Resilient Safety-driven Unlearning for Diffusion Models against Downstream Fine-tuning [24.176983833455413]
テキスト・ツー・イメージ(T2I)拡散モデルは、印象的な画像生成品質を達成し、パーソナライズされたアプリケーション向けに微調整されている。
これらのモデルはしばしば有毒な事前訓練データから安全でない行動を継承し、安全性の懸念が高まる。
本稿では、下流の微調整に対するレジリエンスを高める安全駆動型アンラーニングフレームワークResAlignを提案する。
論文 参考訳(メタデータ) (2025-07-22T07:40:16Z) - LookAhead Tuning: Safer Language Models via Partial Answer Previews [62.529794567687354]
ファインチューニングにより、大きな言語モデルは特定のドメインに適応できるが、しばしば以前に確立された安全アライメントを損なう。
LookAhead Tuningは、微調整時の安全性を維持する軽量で効果的なデータ駆動型アプローチである。
論文 参考訳(メタデータ) (2025-03-24T18:11:42Z) - Panacea: Mitigating Harmful Fine-tuning for Large Language Models via Post-fine-tuning Perturbation [58.7395356511539]
有害な微調整攻撃は、微調整サービスに重大なセキュリティリスクをもたらす。
主流防衛は、後の有害な微調整攻撃がより効果的でないように、モデルを予防接種することを目的としている。
微調整後のモデルに適用可能な適応的摂動を最適化するパナセアを提案する。
論文 参考訳(メタデータ) (2025-01-30T02:47:09Z) - Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging [47.33307521558814]
下流タスクのための微調整された大型言語モデル(LLM)は、しばしば破滅的な忘れを招きます。
プレファインモデルとポストファインモデルとの重み付けを単純に組み合わせれば安全性の低下が軽減され,性能が向上することを示す。
論文 参考訳(メタデータ) (2024-12-27T08:03:22Z) - Erasing Undesirable Influence in Diffusion Models [51.225365010401006]
拡散モデルは高品質な画像を生成するのに非常に効果的であるが、NSFW(職場では安全ではない)コンテンツの意図しない生成のようなリスクを引き起こす。
本研究では,データに関連付けられた不要な情報を取り除き,保存データに対する拡散モデルの実用性を維持するために設計されたアルゴリズムであるEraseDiffを紹介する。
論文 参考訳(メタデータ) (2024-01-11T09:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。