論文の概要: Robust LLM Unlearning Against Relearning Attacks: The Minor Components in Representations Matter
- arxiv url: http://arxiv.org/abs/2605.11685v1
- Date: Tue, 12 May 2026 07:43:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.673563
- Title: Robust LLM Unlearning Against Relearning Attacks: The Minor Components in Representations Matter
- Title(参考訳): 再学習攻撃に対するロバストLLMの非学習 : 表現の小さな要素
- Authors: Zeguan Xiao, Xuanzhe Xu, Yun Chen, Yong Wang, Jian Yang, Yanqing Hu, Guanhua Chen,
- Abstract要約: 未学習のモデルは、再学習攻撃によって「忘れられた」知識を素早く回復する。
これにより、特にオープンウェイトモデルにおいて、深刻なセキュリティ上の懸念が生じる。
本稿では,表現の小さなコンポーネントを明示的に対象とする新しいアンラーニング手法であるMCUを提案する。
- 参考スコア(独自算出の注目度): 15.200685676804774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) unlearning aims to remove specific data influences from pre-trained model without costly retraining, addressing privacy, copyright, and safety concerns. However, recent studies reveal a critical vulnerability: unlearned models rapidly recover "forgotten" knowledge through relearning attacks. This fragility raises serious security concerns, especially for open-weight models. In this work, we investigate the fundamental mechanism underlying this fragility from a representation geometry perspective. We discover that existing unlearning methods predominantly optimize along dominant components, leaving minor components largely unchanged. Critically, during relearning attacks, the modifications in these dominant components are easily reversed, enabling rapid knowledge recovery, whereas minor components exhibit stronger resistance to such reversal. We further provide a theoretical analysis that explains both observations from the spectral structure of representations. Building on this insight, we propose Minor Component Unlearning (MCU), a novel unlearning approach that explicitly targets minor components in representations. By concentrating unlearning effects in these inherently robust directions, our method achieves substantially improved resistance to relearning attacks. Extensive experiments on three datasets validate our approach, demonstrating significant improvements over state-of-the-art methods including sharpness-aware minimization.
- Abstract(参考訳): 大規模言語モデル(LLM)のアンラーニングは、トレーニング済みのモデルから特定のデータの影響を取り除くことを目的としている。
未学習のモデルは、再学習攻撃を通じて「忘れられた」知識を素早く回復する。
この脆弱性は、特にオープンウェイトモデルにおいて、深刻なセキュリティ上の懸念を引き起こす。
本研究では, この不安定性の基礎となるメカニズムを, 表現幾何学の観点から検討する。
既存の未学習の手法が支配的なコンポーネントに沿って最適化され、マイナーなコンポーネントがほとんど変わらないことが分かりました。
批判的に、再学習攻撃の間、これらの支配的なコンポーネントの修正は容易に逆転し、知識の急速な回復を可能にし、一方、マイナーなコンポーネントはそのような逆転に対する強い抵抗を示す。
さらに、表現のスペクトル構造から両方の観察を説明する理論的解析を行う。
この知見に基づいて、表現中の小さなコンポーネントを明示的に対象とする、新しい未学習アプローチであるMCU(Minor Component Unlearning)を提案する。
本手法は,これらの非学習効果を本質的にロバストな方向に集中させることで,再学習攻撃に対する耐性を大幅に向上させる。
3つのデータセットの大規模な実験により、我々のアプローチが検証され、シャープネスを意識した最小化を含む最先端の手法よりも大幅に改善された。
関連論文リスト
- Large Vision-Language Models Get Lost in Attention [51.851592109135716]
本稿では,情報理論と幾何に基づく統合フレームワークを提案し,残差更新の幾何的およびエントロピー的性質を定量化する。
注意は再設定に焦点を当てたサブスペース言語演算子として機能し、FFNはセマンティックイノベーションを駆動するサブスペース言語演算子として機能します。
論文 参考訳(メタデータ) (2026-05-07T04:45:52Z) - ARES: Scalable and Practical Gradient Inversion Attack in Federated Learning through Activation Recovery [73.8181449261685]
Federated Learning(FL)は、モデルの更新を生データではなく共有することで、ユーザのプライバシ保護を目的としたコラボレーションモデルトレーニングを可能にする。
最近の研究によると、これらの共有更新は、勾配反転攻撃(GIA)を通じて、不注意にセンシティブなトレーニングデータを漏洩する可能性がある。
論文 参考訳(メタデータ) (2026-03-18T11:40:44Z) - Why Loss Re-weighting Works If You Stop Early: Training Dynamics of Unconstrained Features [34.88156871518115]
本稿では,この現象を透過的に実証し解析するための小型モデル(SSM)を提案する。
一方、SSMは、バニラ経験的リスク最小化が、訓練の早い段階でマイノリティよりも多数派を区別することを優先的に学んでいることを明らかにしている。
対照的に、再重み付けはバランスの取れた学習力学を復元し、多数派とマイノリティの両方に関連する特徴の同時学習を可能にする。
論文 参考訳(メタデータ) (2026-01-17T11:26:53Z) - Exploiting Edge Features for Transferable Adversarial Attacks in Distributed Machine Learning [54.26807397329468]
この研究は、分散ディープラーニングシステムにおいて、これまで見過ごされていた脆弱性を探究する。
中間的特徴をインターセプトする敵は、依然として深刻な脅威となる可能性がある。
本稿では,分散環境に特化して設計されたエクスプロイト戦略を提案する。
論文 参考訳(メタデータ) (2025-07-09T20:09:00Z) - Towards LLM Unlearning Resilient to Relearning Attacks: A Sharpness-Aware Minimization Perspective and Beyond [41.3029262040131]
再学習攻撃に対して未学習モデルを堅牢化する方法について検討する。
解析の結果,スムーズさの最適化が再学習攻撃の軽減に重要な役割を担っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-02-07T23:03:55Z) - Just a Simple Transformation is Enough for Data Protection in Vertical Federated Learning [83.90283731845867]
我々は、入力データ妥協を目標とする一般的なリスクである特徴再構成攻撃について検討する。
フェデレーションベースのモデルは、最先端の機能再構築攻撃に耐性があることが示される。
論文 参考訳(メタデータ) (2024-12-16T12:02:12Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。