論文の概要: Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging
- arxiv url: http://arxiv.org/abs/2412.19512v3
- Date: Thu, 28 Aug 2025 01:13:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 11:47:01.163804
- Title: Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging
- Title(参考訳): 予混合および後混合による微調整LDMの保護
- Authors: Hua Farn, Hsuan Su, Shachi H Kumar, Saurav Sahay, Shang-Tse Chen, Hung-yi Lee,
- Abstract要約: 下流タスクのための微調整された大型言語モデル(LLM)は、しばしば破滅的な忘れを招きます。
プレファインモデルとポストファインモデルとの重み付けを単純に組み合わせれば安全性の低下が軽減され,性能が向上することを示す。
- 参考スコア(独自算出の注目度): 47.33307521558814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning large language models (LLMs) for downstream tasks often leads to catastrophic forgetting, notably degrading the safety of originally aligned models. While some existing methods attempt to restore safety by incorporating additional safety data, the quality of such data typically falls short of that used in the original alignment process. Moreover, these high-quality safety datasets are generally inaccessible, making it difficult to fully recover the model's original safety. We ask: How can we preserve safety while improving downstream task performance without additional safety data? We show that simply merging the weights of pre- and post-fine-tuned models effectively mitigates safety degradation while enhancing performance. Experiments across different downstream tasks and models validate the method's practicality and effectiveness.
- Abstract(参考訳): 下流タスクのための微調整された大型言語モデル(LLM)は、しばしば破滅的な忘れを招き、特に元々整列したモデルの安全性を低下させる。
いくつかの既存の手法は、追加の安全データを組み込むことで安全性を回復しようとするが、そのようなデータの品質は、元々のアライメントプロセスで使われるものよりは劣っている。
さらに、これらの高品質な安全データセットは一般にアクセスできないため、モデルのオリジナルの安全性を完全に回復することは困難である。
安全データを追加することなく、ダウンストリームタスクのパフォーマンスを改善しながら、どうやって安全性を維持することができるのか?
プレファインモデルとポストファインモデルとの重み付けを単純に組み合わせることで、安全性の低下を効果的に軽減し、性能を向上できることを示す。
異なる下流タスクとモデルにわたる実験は、メソッドの実用性と有効性を検証する。
関連論文リスト
- Token-level Data Selection for Safe LLM Fine-tuning [15.039068315115372]
カスタムデータセット上での微調整大型言語モデル(LLM)は、これらのモデルを特定のドメインやアプリケーションに適用するための標準的なアプローチとなっている。
近年の研究では、このような微調整がモデルの安全性を著しく低下させる可能性があることが示されている。
本稿では,安全劣化モデルとユーティリティ指向モデルとの損失差を測定することにより,各トークンの安全性リスクを定量化する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-01T16:52:05Z) - Q-realign: Piggybacking Realignment on Quantization for Safe and Efficient LLM Deployment [55.14890249389052]
既存の防衛は、安全回復を微調整に埋め込んだり、微調整による修正に先立って微調整に頼ったりしている。
我々は,ポストトレーニング量子化に基づくポストホック防御手法であるtextttQ-realign を提案する。
私たちの仕事は、安全を意識したデプロイメントのための実践的でターンキーなソリューションを提供します。
論文 参考訳(メタデータ) (2026-01-13T00:07:24Z) - Safety at One Shot: Patching Fine-Tuned LLMs with A Single Instance [20.0828672005664]
安全アライメントは, 単一の安全事例のみで完全に回復可能であることを示す。
安全勾配の低ランク構造を明らかにし,なぜこのような効率的な補正が可能かを説明する。
論文 参考訳(メタデータ) (2026-01-05T08:26:34Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Layer-Aware Representation Filtering: Purifying Finetuning Data to Preserve LLM Safety Alignment [24.364891513019444]
本稿では, 微調整データセットには, 表面で容易に識別できない, 安全性の低下したサンプルがしばしば含まれていることを示す。
本稿では,レイヤ認識表現フィルタリング手法であるLARFを提案する。
実験結果から, LARFは良性データと安全性劣化の特徴を効果的に識別できることが示唆された。
論文 参考訳(メタデータ) (2025-07-24T17:59:24Z) - Safe Pruning LoRA: Robust Distance-Guided Pruning for Safety Alignment in Adaptation of LLMs [4.580092836731863]
Low-Rank Adaptation (LoRA) を用いた細調整大型言語モデル(LLM)は、計算コストを削減しつつ適応性を向上する。
既存の安全アライメント手法は、複雑なパラメータシフトを捉えるのに苦労し、最適化された安全性とユーティリティのトレードオフにつながる。
安全性を弱めるLoRA層を選択的に除去する新しいプルーニングベースアプローチであるSafe Pruning LoRA(SPLoRA)を提案する。
論文 参考訳(メタデータ) (2025-06-21T14:59:54Z) - LoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuning [61.594212398272184]
Low-Rank Extrapolation (LoX)は、良質で悪意のある微調整攻撃に対する堅牢性を改善する。
LoXは攻撃成功率を11%から54%に下げる。
論文 参考訳(メタデータ) (2025-06-18T16:30:02Z) - Reshaping Representation Space to Balance the Safety and Over-rejection in Large Audio Language Models [50.89022445197919]
Large Audio Language Models (LALM) は、Large Language Models (LLM) の機能を拡張した。
近年の研究では、LALMは安全調整が不十分なため、有害なクエリに対して脆弱であることが明らかになっている。
論文 参考訳(メタデータ) (2025-05-26T08:25:25Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Mitigating Fine-tuning Risks in LLMs via Safety-Aware Probing Optimization [7.1060720569792215]
微調整された大きな言語モデル(LLM)は、必然的に安全性を損なう可能性がある。
安全リスクの軽減を目的とした安全意識探索(SAP)フレームワークを導入する。
実験の結果,SAPは従来の微調整モデルよりも有害性を効果的に低減できることがわかった。
論文 参考訳(メタデータ) (2025-05-22T14:52:10Z) - Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - LookAhead Tuning: Safer Language Models via Partial Answer Previews [62.529794567687354]
ファインチューニングにより、大きな言語モデルは特定のドメインに適応できるが、しばしば以前に確立された安全アライメントを損なう。
LookAhead Tuningは、微調整時の安全性を維持する軽量で効果的なデータ駆動型アプローチである。
論文 参考訳(メタデータ) (2025-03-24T18:11:42Z) - SafeMERGE: Preserving Safety Alignment in Fine-Tuned Large Language Models via Selective Layer-Wise Model Merging [38.69546578029726]
本稿では,タスクユーティリティを維持しながら安全性を保った後調整フレームワークであるSafeMERGEを提案する。
Llama-2-7B-Chat および Qwen-2-7B-Instruct モデルに対して, SafeMERGE の評価を行った。
論文 参考訳(メタデータ) (2025-03-21T15:44:09Z) - Equilibrate RLHF: Towards Balancing Helpfulness-Safety Trade-off in Large Language Models [24.168387024091082]
人間の好みに基づく微調整型大規模言語モデル(LLM)は,その性能向上に有効である。
微調整プロセスを通して安全性を維持することは、依然として大きな課題である。
トレーニングデータが少ない場合でも安全性を向上する平衡RLHFフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T08:40:30Z) - Safety Layers in Aligned Large Language Models: The Key to LLM Security [43.805905164456846]
内部パラメータは、悪意のないバックドアや通常のデータで微調整された場合、セキュリティの劣化に対して脆弱である。
モデルの中心にある,悪意のあるクエリと通常のクエリを区別する上で重要な,連続的なレイヤの小さなセットを同定する。
そこで本稿では,セキュリティの劣化に対処するために,安全性層の勾配を補正する新しいファインチューニング手法であるSPPFTを提案する。
論文 参考訳(メタデータ) (2024-08-30T04:35:59Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - SLM as Guardian: Pioneering AI Safety with Small Language Models [6.799423428734095]
より大型のモデルにセーフガード機能を組み込むことで、トレーニングコストの上昇と意図しない有用性の低下が問題となった。
本稿では、有害なクエリ検出とセーフガード応答生成の両方に、より小さなLSMを利用する。
提案手法の有効性を実証し,LLMと比較して,有害なクエリ検出およびセーフガード応答性能を同等又は超過する手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T08:03:15Z) - Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models [65.06446825020578]
大規模言語モデル(LLM)が人間の嗜好に合わせて行動し、推論中に有害な行動を防ぐためには、安全性の調整が不可欠である。
我々は, LLMの安全景観をナビゲートすることで, LLMの微調整のリスクを測定することを目的としている。
論文 参考訳(メタデータ) (2024-05-27T17:31:56Z) - Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。
textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。