論文の概要: Quantization-Robust LLM Unlearning via Low-Rank Adaptation
- arxiv url: http://arxiv.org/abs/2602.13151v1
- Date: Fri, 13 Feb 2026 18:01:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:54.066048
- Title: Quantization-Robust LLM Unlearning via Low-Rank Adaptation
- Title(参考訳): 低ランク適応による量子化ロバストLDMのアンラーニング
- Authors: João Vitor Boer Abitante, Joana Meneguzzo Pasquali, Luan Fonseca Garcia, Ewerton de Oliveira, Thomas da Silva Paula, Rodrigo C. Barros, Lucas S. Kupssinskü,
- Abstract要約: 大規模言語モデル(LLM)アンラーニングは、訓練されたモデルから対象とする知識を取り除くことを目的としている。
低ランク適応(LoRA)を用いた量子化ロバストアンラーニングを提案する。
LoRAは4ビットユーティリティを最大7.93ポイント(BOOKSではNPO+GDR 50.17から58.10)改善し、GA+GDR(40.06から44.82、4.76の増加)のNEWSでは高い4ビットユーティリティを提供する。
- 参考スコア(独自算出の注目度): 1.9261138876072244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) unlearning aims to remove targeted knowledge from a trained model, but practical deployments often require post-training quantization (PTQ) for efficient inference. However, aggressive low-bit PTQ can mask or erase unlearning updates, causing quantized models to revert to pre-unlearning behavior. We show that standard full-parameter fine-tuning often induce parameter changes that are too small to survive 4-bit quantization. We propose quantization-robust unlearning via low-rank adaptation (LoRA): we freeze the base model and concentrate unlearning into trainable adapters so that the effective update is preserved after quantization. On Llama-2-7B evaluated with MUSE dataset (BOOKS and NEWS), LoRA improves 4-bit utility by up to 7.93 points (NPO+GDR on BOOKS: 50.17 to 58.10) and yields higher 4-bit utility on NEWS for GA+GDR (40.06 to 44.82, increase of 4.76). LoRA also substantially reduces privacy leakage under 4-bit PTQ, e.g., for GA+KLR on BOOKS, PrivLeak moves from -25.68 to -5.86 (closer to ideal 0), while maintaining strong forgetting (VerMem and KnowMem near 0). Thus, using LoRA for Machine Unlearning is beneficial for scenarios where quantization is necessary for model deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)のアンラーニングは、訓練されたモデルから対象とする知識を取り除くことを目的としている。
しかし、アグレッシブな低ビットPTQは、未学習の更新を隠蔽または消去することができ、量子化されたモデルが未学習の振る舞いに戻る。
標準のフルパラメータ細調整は、4ビット量子化に耐えるには小さすぎるパラメータ変化をしばしば引き起こすことを示す。
低ランク適応 (LoRA) による量子化不正学習を提案し, 基本モデルを凍結し, 学習をトレーニング可能なアダプタに集中させ, 有効更新を量子化後に保存する。
MUSEデータセット(BOOKSとNEWS)で評価されたLlama-2-7Bでは、LORAは最大7.93ポイント(BOOKSではNPO+GDR、BOOKSでは50.17から58.10)の4ビットユーティリティを改善し、GA+GDR(40.06から44.82、4.76の増加)のためにNEWS上で4ビットユーティリティを得る。
LoRAはまた、4ビットのPTQ、例えばBOOKS上のGA+KLRでのプライバシー漏洩を著しく低減し、PrivLeakは-25.68から-5.86(理想0に近づいた)に移行し、強い忘れ込みを維持している(VerMemとKnowMemは0に近い)。
したがって、マシンアンラーニングにLoRAを使用することは、モデルデプロイメントに量子化が必要なシナリオにとって有益である。
関連論文リスト
- QuAILoRA: Quantization-Aware Initialization for LoRA [46.00375834217641]
QLoRAは、ベースLLMを定量化することにより、Lolaで大規模言語モデル(LLM)を微調整するメモリコストを削減する。
QLoRAは微調整後のモデル性能に悪影響を及ぼす量子化誤差を導入する。
論文 参考訳(メタデータ) (2024-10-09T19:06:37Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - L4Q: Parameter Efficient Quantization-Aware Fine-Tuning on Large Language Models [5.304907804008533]
量子化学習(QAT)とローランド適応(LoRA)を統合したL4Qを提案する。
メモリ最適化レイヤ設計を採用することで、L4QはQATのメモリオーバーヘッドを大幅に削減し、トレーニングコストはLoRAに匹敵する。
この量子化法と微調整法の組み合わせにより精度が向上することを示した。
論文 参考訳(メタデータ) (2024-02-07T14:35:05Z) - LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。
微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-20T18:57:41Z) - QLoRA: Efficient Finetuning of Quantized LLMs [66.58009990713134]
我々は,48GBのGPU上で65Bパラメータモデルを微調整するのに十分なメモリ使用量を削減する,効率的な微調整手法QLoRAを提案する。
QLoRAは凍結した4ビット量子化事前学習言語モデルを通して低ランクアダプタ(LoRA)に逆伝搬する
最高のモデルファミリであるGuanacoは、Vicunaベンチマークでリリースされたすべてのモデルより優れています。
論文 参考訳(メタデータ) (2023-05-23T17:50:33Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。