論文の概要: Why LoRA Fails to Forget: Regularized Low-Rank Adaptation Against Backdoors in Language Models
- arxiv url: http://arxiv.org/abs/2601.06305v1
- Date: Fri, 09 Jan 2026 20:54:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.74075
- Title: Why LoRA Fails to Forget: Regularized Low-Rank Adaptation Against Backdoors in Language Models
- Title(参考訳): LoRAが忘れられない理由:言語モデルにおけるバックドアに対する正規化低ランク適応
- Authors: Hoang-Chau Luong, Lingwei Chen,
- Abstract要約: Low-Rank Adaptation (LoRA) は大規模言語モデルのパラメータ効率の良い微調整に広く用いられている。
LoRAの脆弱性は基本的にスペクトルであることを示す。
正規化低ランク適応(RoRA)は、スペクトル強度を増大させることにより、忘れを改善する。
- 参考スコア(独自算出の注目度): 5.957171492626586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-Rank Adaptation (LoRA) is widely used for parameter-efficient fine-tuning of large language models, but it is notably ineffective at removing backdoor behaviors from poisoned pretrained models when fine-tuning on clean dataset. Contrary to the common belief that this weakness is caused primarily by low rank, we show that LoRA's vulnerability is fundamentally spectral. Our analysis identifies two key factors: LoRA updates (i) possess insufficient spectral strength, with singular values far below those of pretrained weights, and (ii) exhibit unfavorable spectral alignment, weakly matching clean-task directions while retaining overlap with trigger-sensitive subspaces. We further establish a critical scaling threshold beyond which LoRA can theoretically suppress trigger-induced activations, and we show empirically that standard LoRA rarely reaches this regime. We introduce Regularized Low-Rank Adaptation (RoRA), which improves forgetting by increasing spectral strength and correcting alignment through clean-strengthened regularization, trigger-insensitive constraints, and post-training spectral rescaling. Experiments across multiple NLP benchmarks and attack settings show that RoRA substantially reduces attack success rates while maintaining clean accuracy.
- Abstract(参考訳): Low-Rank Adaptation (LoRA) は大規模言語モデルのパラメータ効率の良い微調整に広く用いられているが、クリーンデータセットを微調整する際、有毒な事前訓練モデルからバックドアの挙動を除去するには特に効果がない。
この弱点は、主に低いランクによって引き起こされるという一般的な信念とは対照的に、ロラの脆弱性は基本的にスペクトルである。
我々の分析では、LoRAの更新という2つの重要な要因を特定している。
(i)スペクトル強度が不十分で、未訓練重量よりもはるかに低い特異値
(II) スペクトルアライメントは好ましくないが, クリーンタスクの方向は弱いが, トリガー感応部分空間との重なりは保たれている。
我々はさらに、ロラが理論的にトリガー誘発活性化を抑制できる限界スケーリングしきい値を確立し、標準ロラがこの状態に達することは滅多にないことを示す。
本稿では, スペクトル強度を高め, 正則化, トリガー非感受性制約, トレーニング後のスペクトル再スケーリングによってアライメントを補正することにより, 忘れを改善できる正規化低ランク適応 (RoRA) を提案する。
複数のNLPベンチマークとアタック設定による実験では、RoRAはクリーンな精度を維持しながら、攻撃の成功率を大幅に削減している。
関連論文リスト
- C-LoRA: Contextual Low-Rank Adaptation for Uncertainty Estimation in Large Language Models [19.55798373491983]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整するためのコスト効率の良いソリューションを提供する。
LoRAは、データスカースな数ショット設定で過信な予測を生成する。
本稿では,新しい不確実性を認識し,パラメータを効率的に調整する手法として,コンテキスト低ランク適応(C-LoRA)を提案する。
論文 参考訳(メタデータ) (2025-05-23T11:44:02Z) - SRLoRA: Subspace Recomposition in Low-Rank Adaptation via Importance-Based Fusion and Reinitialization [2.594346658179846]
Low-Rank Adaptation (LoRA)は、固定された低ランク部分空間への更新を制約する。
本稿では,低ランク適応(SRLoRA)における部分空間再構成について,重要性に基づく融合と再初期化を用いて紹介する。
SRLoRAは標準のLoRAよりも高速な収束と精度の向上を実現している。
論文 参考訳(メタデータ) (2025-05-18T14:12:40Z) - LoRA-MGPO: Mitigating Double Descent in Low-Rank Adaptation via Momentum-Guided Perturbation Optimization [16.360816770124874]
LoRA-MGPO は Momentum-Guided Perurbation Optimization (MGPO) を組み込んだフレームワークである。
MGPOは勾配状態から運動量ベクトルを誘導する運動力学を安定化させる。
実験の結果, LoRA-MGPO は LoRA や他のPEFT 法よりも優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (2025-02-20T13:14:41Z) - LoRA vs Full Fine-tuning: An Illusion of Equivalence [73.5303340531806]
我々は,Low-Rank Adaptation (LoRA) とフルファインタニングによる事前学習モデルについて検討する。
特異値分解が全く異なる構造を示すLoRAおよび完全微調整収量行列が得られた。
我々は、LoRAが完全な微調整を忘れてはならないという発見を拡張し、その忘れ物は侵入者次元に大きく局所化されていることを発見した。
論文 参考訳(メタデータ) (2024-10-28T17:14:01Z) - Controlled Low-Rank Adaptation with Subspace Regularization for Continued Training on Large Language Models [13.56631686493347]
大規模言語モデル(LLM)は、自然言語処理において顕著な能力を示すが、新しいタスクを学ぶ際に破滅的な忘れに直面している。
本稿では,LoRA 構造上の部分空間正規化手法である Controlled LoRA (CLoRA) を提案する。
論文 参考訳(メタデータ) (2024-10-22T08:27:23Z) - LoRA Dropout as a Sparsity Regularizer for Overfitting Control [18.992276878667997]
そこで本研究では,LoRA方式のドロップアウト機構を提案する。
適切な空間性は、経験的リスクと一般化リスクのギャップを狭めるのに役立ちます。
論文 参考訳(メタデータ) (2024-04-15T09:32:12Z) - DoRA: Weight-Decomposed Low-Rank Adaptation [57.68678247436207]
本稿では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。
本研究は、FTの学習能力に類似することを目的として、重量分解低ランク適応(DoRA)を提案する。
DoRAは、事前訓練された重量を、微調整のための大きさと方向の2つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-02-14T17:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。