論文の概要: Invariance Makes LLM Unlearning Resilient Even to Unanticipated Downstream Fine-Tuning
- arxiv url: http://arxiv.org/abs/2506.01339v1
- Date: Mon, 02 Jun 2025 05:38:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.046958
- Title: Invariance Makes LLM Unlearning Resilient Even to Unanticipated Downstream Fine-Tuning
- Title(参考訳): 予測外のダウンストリームファインチューニングによるLLMの非学習耐性を実現する不変性
- Authors: Changsheng Wang, Yihua Zhang, Jinghan Jia, Parikshit Ram, Dennis Wei, Yuguang Yao, Soumyadeep Pal, Nathalie Baracaldo, Sijia Liu,
- Abstract要約: 機械学習は、大規模言語モデル(LLM)におけるプライバシーと安全性の懸念に対する有望な解決策を提供する
不変リスク最小化(IRM)に触発されて、非学習に初めて不変を導入する。
我々は、頑健性を高める正規化ベースのフレームワークである不変LLMアンラーニング(ILU)を提案する。
- 参考スコア(独自算出の注目度): 36.531016992508505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine unlearning offers a promising solution to privacy and safety concerns in large language models (LLMs) by selectively removing targeted knowledge while preserving utility. However, current methods are highly sensitive to downstream fine-tuning, which can quickly recover forgotten information-even from unrelated tasks. To address this, we introduce invariance into unlearning for the first time, inspired by invariant risk minimization (IRM). Building on this principle, we propose invariant LLM unlearning (ILU), a regularization-based framework that enhances robustness. Notably, ILU generalizes well to diverse fine-tuning tasks, even when trained using a single dataset. A task vector analysis is also provided to further elucidate the rationale behind ILU's effectiveness. Extensive experiments on the WMDP and MUSE benchmark, reveal that ILU significantly outperforms state-of-the-art unlearning methods, including negative preference optimization (NPO) and representation misdirection for unlearning (RMU). Notably, ILU achieves superior unlearning robustness across diverse downstream fine-tuning scenarios (e.g., math, paraphrase detection, and sentiment analysis) while preserving the fine-tuning performance.
- Abstract(参考訳): 機械学習は、実用性を維持しながらターゲットとなる知識を選択的に取り除き、大きな言語モデル(LLM)におけるプライバシーと安全性の懸念に対する有望な解決策を提供する。
しかし、現在の手法は下流の微調整に非常に敏感であり、無関係なタスクから忘れられた情報を素早く復元することができる。
これを解決するために,不変リスク最小化(IRM)にインスパイアされた非学習への不変性を初めて導入する。
この原理に基づいて、ロバスト性を高める正規化ベースのフレームワークである不変LLMアンラーニング(ILU)を提案する。
特にILUは、単一のデータセットを使用してトレーニングされた場合でも、さまざまな微調整タスクをうまく一般化する。
ILUの有効性の理論的根拠をさらに解明するためにタスクベクトル解析も提供される。
WMDPとMUSEベンチマークの大規模な実験により、ILUは、非学習(RMU)の否定的選好最適化(NPO)や表現ミス指向(RMU)など、最先端の未学習手法を著しく上回っていることが明らかになった。
特に、ILUは、微調整性能を維持しながら、様々な下流の微調整シナリオ(例えば、数学、パラフレーズ検出、感情分析)で優れた非学習的堅牢性を達成する。
関連論文リスト
- LLM Unlearning Reveals a Stronger-Than-Expected Coreset Effect in Current Benchmarks [23.5632914682956]
大規模言語モデルアンラーニングは、安全性と制御モデル行動を保証する上で重要な課題となっている。
LLMのアンラーニングは、かなり小さなサブセット(コアセットとして機能する)で効果的に維持可能であることを示す。
これは、非常に低データ状態であっても、これらのベンチマークでのLLMアンラーニングが驚くほど容易に実行可能であることを示唆している。
論文 参考訳(メタデータ) (2025-04-14T12:38:37Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z) - ALU: Agentic LLM Unlearning [9.934258340998047]
大規模言語モデル(LLM)における情報除去または抑制は、AI規制、法的コンプライアンス、安全性、プライバシに有用な、望ましい機能である。
現在のLLMアンラーニング手法は、これらの目的の競合する性質のため、未学習の有効性と実用性のバランスをとるのに苦労している。
LLMアンラーニングに対するマルチエージェント・リトレインフリー・モデル非依存アプローチであるALU法を提案する。
論文 参考訳(メタデータ) (2025-02-01T11:45:44Z) - Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [61.99353167168545]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - Multi-Objective Large Language Model Unlearning [3.372396620898397]
グラディエント・アセント(GA)は、対象データ上のモデルの予測確率を減少させるプロアクティブな方法である。
本稿では,多目的大規模言語モデル学習(MOLLM)アルゴリズムを提案する。
実験の結果,MLLM が SOTA GA をベースとした LLM アンラーニング法よりも非ラーニング効果とモデルユーティリティ保存の点で優れていたことが確認された。
論文 参考訳(メタデータ) (2024-12-29T09:35:56Z) - Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning [27.991291785091736]
本研究は、不要なデータの影響を取り除くことを目的として、大規模言語モデル(LLM)アンラーニングの問題を研究する。
未学習の需要が増えているにもかかわらず、技術的に地平線を画した最適化フレームワークは欠如している。
我々はSimNPOと呼ばれるシンプルで効果的なアンラーニング最適化フレームワークを提案し、参照モデルへの依存をなくすことによる「単純さ」がアンラーニングの恩恵をもたらすことを示した。
論文 参考訳(メタデータ) (2024-10-09T17:58:12Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。