論文の概要: LoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuning
- arxiv url: http://arxiv.org/abs/2506.15606v1
- Date: Wed, 18 Jun 2025 16:30:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.740132
- Title: LoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuning
- Title(参考訳): LoX:低ランク外挿法は、微調整に対するLCMの安全性を損なう
- Authors: Gabrel J. Perin, Runjin Chen, Xuxi Chen, Nina S. T. Hirata, Zhangyang Wang, Junyuan Hong,
- Abstract要約: Low-Rank Extrapolation (LoX)は、良質で悪意のある微調整攻撃に対する堅牢性を改善する。
LoXは攻撃成功率を11%から54%に下げる。
- 参考スコア(独自算出の注目度): 61.594212398272184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have become indispensable in real-world applications. However, their widespread adoption raises significant safety concerns, particularly in responding to socially harmful questions. Despite substantial efforts to improve model safety through alignment, aligned models can still have their safety protections undermined by subsequent fine-tuning - even when the additional training data appears benign. In this paper, we empirically demonstrate that this vulnerability stems from the sensitivity of safety-critical low-rank subspaces in LLM parameters to fine-tuning. Building on this insight, we propose a novel training-free method, termed Low-Rank Extrapolation (LoX), to enhance safety robustness by extrapolating the safety subspace of an aligned LLM. Our experimental results confirm the effectiveness of LoX, demonstrating significant improvements in robustness against both benign and malicious fine-tuning attacks while preserving the model's adaptability to new tasks. For instance, LoX leads to 11% to 54% absolute reductions in attack success rates (ASR) facing benign or malicious fine-tuning attacks. By investigating the ASR landscape of parameters, we attribute the success of LoX to that the extrapolation moves LLM parameters to a flatter zone, thereby less sensitive to perturbations. The code is available at github.com/VITA-Group/LoX.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現実世界のアプリケーションでは不可欠である。
しかし、彼らの普及は、特に社会的に有害な問題に対処する上で、重大な安全上の懸念を提起する。
アライメントを通じてモデルの安全性を改善するための多大な努力にもかかわらず、アライメントされたモデルは、後続の微調整によって安全を損なう可能性がある。
本稿では,LLMパラメータの安全クリティカルな低ランク部分空間の感度から微調整に至るまでの脆弱性を実証的に証明する。
この知見に基づいて,Low-Rank Extrapolation (LoX) と呼ばれる新しいトレーニングフリー手法を提案し,LLMの安全性部分空間を外挿することで安全性の堅牢性を高める。
実験の結果,LoXの有効性を確認し,新たなタスクへの適応性を保ちながら,良性および悪質な微調整攻撃に対するロバスト性を大幅に向上した。
例えば、LoXは11%から54%の絶対的な攻撃成功率(ASR)の低下につながる。
パラメータのASR環境を調べた結果,外挿法がLLMパラメータをフラットゾーンに移動させることで,摂動に敏感になることがわかった。
コードはgithub.com/VITA-Group/LoXで入手できる。
関連論文リスト
- Reshaping Representation Space to Balance the Safety and Over-rejection in Large Audio Language Models [50.89022445197919]
Large Audio Language Models (LALM) は、Large Language Models (LLM) の機能を拡張した。
近年の研究では、LALMは安全調整が不十分なため、有害なクエリに対して脆弱であることが明らかになっている。
論文 参考訳(メタデータ) (2025-05-26T08:25:25Z) - Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging [43.44112117935541]
下流タスクのための細調整された大型言語モデル(LLM)は、安全に整合したLLMの安全性を低下させる。
下流タスク性能を向上しつつ, LLM 固有の安全性を維持する手法を提案する。
論文 参考訳(メタデータ) (2024-12-27T08:03:22Z) - Safety Layers in Aligned Large Language Models: The Key to LLM Security [43.805905164456846]
整列 LLM の内部パラメータは、微調整攻撃を受けた場合のセキュリティ劣化に対して脆弱である。
我々の研究は、パラメータレベルでのLLMの整列化におけるセキュリティのメカニズムを明らかにし、モデルの中央に小さな連続した層を識別する。
そこで本稿では, 安全部分調整(SPPFT)方式を提案する。
論文 参考訳(メタデータ) (2024-08-30T04:35:59Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models [65.06446825020578]
大規模言語モデル(LLM)が人間の嗜好に合わせて行動し、推論中に有害な行動を防ぐためには、安全性の調整が不可欠である。
我々は, LLMの安全景観をナビゲートすることで, LLMの微調整のリスクを測定することを目的としている。
論文 参考訳(メタデータ) (2024-05-27T17:31:56Z) - Assessing the Brittleness of Safety Alignment via Pruning and Low-Rank Modifications [69.13807233595455]
大きな言語モデル(LLM)は、その安全性メカニズムに固有の脆さを示す。
本研究では, プルーニングと低ランク改造を利用した安全アライメントの脆性について検討した。
安全クリティカル領域への変更が制限された場合でも,LSMは低コストの微調整攻撃に対して脆弱であることを示す。
論文 参考訳(メタデータ) (2024-02-07T18:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。