論文の概要: Layer-Aware Representation Filtering: Purifying Finetuning Data to Preserve LLM Safety Alignment
- arxiv url: http://arxiv.org/abs/2507.18631v2
- Date: Fri, 25 Jul 2025 07:20:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 12:12:30.242774
- Title: Layer-Aware Representation Filtering: Purifying Finetuning Data to Preserve LLM Safety Alignment
- Title(参考訳): 層認識表現フィルタ:LCMの安全性確保のための微調整データの浄化
- Authors: Hao Li, Lijun Li, Zhenghao Lu, Xianyi Wei, Rui Li, Jing Shao, Lei Sha,
- Abstract要約: 本稿では, 微調整データセットには, 表面で容易に識別できない, 安全性の低下したサンプルがしばしば含まれていることを示す。
本稿では,レイヤ認識表現フィルタリング手法であるLARFを提案する。
実験結果から, LARFは良性データと安全性劣化の特徴を効果的に識別できることが示唆された。
- 参考スコア(独自算出の注目度): 24.364891513019444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With rapid advancement and increasing accessibility of LLMs, fine-tuning aligned models has become a critical step for adapting them to real-world applications, which makes the safety of this fine-tuning process more important than ever. However, recent studies have highlighted a critical challenge: even when fine-tuning with seemingly benign downstream datasets, the safety of aligned LLMs can be compromised, making them more susceptible to malicious instructions. In this paper, we show that fine-tuning datasets often contain samples with safety-degrading features that are not easily identifiable on the surface. These samples can significantly degrade the safety alignment of LLMs during fine-tuning. To address this issue, we propose LARF, a Layer-Aware Representation Filtering method. This method identifies safety-sensitive layers within the LLM and leverages their representations to detect which data samples in the post-training dataset contain safety-degrading features. Experimental results demonstrate that LARF can effectively identify benign data with safety-degrading features. After removing such data, the safety alignment degradation caused by fine-tuning is mitigated. Please see our code at https://github.com/LLLeoLi/LARF.
- Abstract(参考訳): LLMの急速な進歩とアクセシビリティ向上により、ファインチューニング・アライメント・モデルは現実のアプリケーションに適用するための重要なステップとなり、このファインチューニング・プロセスの安全性はこれまでになく重要になっている。
しかし、最近の研究は重要な課題を浮き彫りにしている: 一見良質な下流のデータセットで微調整しても、整列 LLM の安全性は損なわれ、悪意のある命令を受けやすい。
本稿では, 微調整データセットには, 表面で容易に識別できない, 安全性の低下したサンプルがしばしば含まれていることを示す。
これらの試料は微調整時にLLMの安全アライメントを著しく低下させることができる。
この問題に対処するため,Layer-Aware Representation Filtering法であるLARFを提案する。
本手法は, LLM内の安全性に敏感な層を識別し, その表現を利用して, トレーニング後のデータセットのどのデータサンプルに安全性劣化機能が含まれているかを検出する。
実験結果から, LARFは良性データと安全性劣化の特徴を効果的に識別できることが示唆された。
このようなデータを除去した後、微調整による安全アライメント劣化を緩和する。
コードについてはhttps://github.com/LLLeoLi/LARFを参照してください。
関連論文リスト
- Fine-Tuning Lowers Safety and Disrupts Evaluation Consistency [17.57889200051214]
特定のドメインやタスクに対して汎用的な大規模言語モデル(LLM)を微調整することは,一般ユーザにとって日常的な手順となっている。
我々は、これを「攻撃」の良質な性質と相まって、微調整の広汎な取り込みによるLCMの臨界故障モードとみなす。
本実験では, 微調整装置に不連続な変化が生じても, 安全性評価の結果に驚くほどのばらつきが認められた。
論文 参考訳(メタデータ) (2025-06-20T17:57:12Z) - LoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuning [61.594212398272184]
Low-Rank Extrapolation (LoX)は、良質で悪意のある微調整攻撃に対する堅牢性を改善する。
LoXは攻撃成功率を11%から54%に下げる。
論文 参考訳(メタデータ) (2025-06-18T16:30:02Z) - Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - Picky LLMs and Unreliable RMs: An Empirical Study on Safety Alignment after Instruction Tuning [39.48925539103229]
微調整された大きな言語モデル(LLM)は、その安全性のアライメントを必然的に低下させる。
この現象により、モデルは不適切な応答を与えるのにより敏感になる。
我々の研究は、微調整中に安全アライメントを維持する複雑さを強調している。
論文 参考訳(メタデータ) (2025-02-03T07:09:09Z) - Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging [43.44112117935541]
下流タスクのための細調整された大型言語モデル(LLM)は、安全に整合したLLMの安全性を低下させる。
下流タスク性能を向上しつつ, LLM 固有の安全性を維持する手法を提案する。
論文 参考訳(メタデータ) (2024-12-27T08:03:22Z) - Safety Layers in Aligned Large Language Models: The Key to LLM Security [43.805905164456846]
整列 LLM の内部パラメータは、微調整攻撃を受けた場合のセキュリティ劣化に対して脆弱である。
我々の研究は、パラメータレベルでのLLMの整列化におけるセキュリティのメカニズムを明らかにし、モデルの中央に小さな連続した層を識別する。
そこで本稿では, 安全部分調整(SPPFT)方式を提案する。
論文 参考訳(メタデータ) (2024-08-30T04:35:59Z) - Safe LoRA: the Silver Lining of Reducing Safety Risks when Fine-tuning Large Language Models [51.20476412037321]
提案するSafe LoRAは,選択した層からのLoRA重みの投影を安全に整合した部分空間に導入することにより,オリジナルのLoRA実装に対する単純なワンライナーパッチである。
我々の実験は、純粋に悪意のあるデータに対して微調整を行う場合、Safe LoRAは元のアライメントモデルと同様の安全性を保っていることを示した。
論文 参考訳(メタデータ) (2024-05-27T05:04:05Z) - ShieldLM: Empowering LLMs as Aligned, Customizable and Explainable Safety Detectors [90.73444232283371]
ShieldLMは、LLM(Large Language Models)の安全性検出装置で、一般的な安全基準に準拠している。
ShieldLMは4つのテストセットにまたがる強力なベースラインを超えており、優れたカスタマイズ性と説明可能性を示している。
論文 参考訳(メタデータ) (2024-02-26T09:43:02Z) - Learning and Forgetting Unsafe Examples in Large Language Models [41.115096910603086]
大規模言語モデル(LLM)は、サードパーティのカスタム微調整データから学習する。
協調LLMは、安全でないコンテンツを容易に学習できるが、より安全なコンテンツに微調整した場合には、それを忘れやすい傾向にある。
このアルゴリズムは、モデルがそのデータに対して忘れている信号がどれほど強いかに基づいて、安全でないデータをフィルタリングする。
論文 参考訳(メタデータ) (2023-12-20T03:18:50Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。
我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。
我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文 参考訳(メタデータ) (2023-10-05T17:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。