論文の概要: Don't Forget Your Embeddings: Robust Knowledge Erasure via Precise Editing of Embeddings
- arxiv url: http://arxiv.org/abs/2606.03695v1
- Date: Tue, 02 Jun 2026 14:15:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:05.061553
- Title: Don't Forget Your Embeddings: Robust Knowledge Erasure via Precise Editing of Embeddings
- Title(参考訳): 埋め込みを忘れるな - 埋め込みの正確な編集によるロバストな知識の消去
- Authors: Clara Haya Suslik, Or Shafran, Mor Geva,
- Abstract要約: EMBedding ERasure (EMBER) は,Sparse Matrix Factorization を利用してトークン埋め込みから概念関連機能を正確に消去するプラグイン-n-play消去モジュールである。
EMBERによる既存手法の拡張により,タスクフォーマット間の消去効率と特異性が向上し,コヒーレンス損失が最小となることがわかった。
我々の研究は、ロバストな概念消去には正確な埋め込みレベルの介入が必要であることを証明し、既存の方法がそのような拡張の恩恵を受けることを実証する。
- 参考スコア(独自算出の注目度): 23.31466528406221
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As language models are increasingly deployed in real-world applications, the ability to erase specific knowledge from them becomes critical for safety and compliance. Prominent methods seek persistent removal by updating the model's parameters, yet the target knowledge often can be recovered through adversarial prompting or relearning. In this work, we hypothesize this limitation stems in part from existing methods overlooking the embedding layer. To address this, we introduce EMBedding ERasure (EMBER), a plug-n-play erasure module that leverages Sparse Matrix Factorization for precise erasure of concept-related features from token embeddings. Through comprehensive evaluations across diverse concepts on Gemma-2-2B-it and Llama-3.1-8B-Instruct, we find that augmenting existing methods with EMBER consistently improves erasure efficacy and specificity across task formats, with minimal coherence loss. Moreover, it dramatically improves robustness to relearning, reducing regained accuracy by up to 50%, limiting it to 35% on Llama compared to 70%-76% for prior methods. Further analysis shows that the coherence cost is localized, affecting only a small set of concept-exclusive tokens. Our work establishes that precise embedding-level intervention is necessary for robust concept erasure, and demonstrates that existing methods can benefit from such augmentation.
- Abstract(参考訳): 言語モデルが現実世界のアプリケーションにますますデプロイされるにつれて、特定の知識を消去する能力は、安全性とコンプライアンスにとって重要になる。
卓越した手法はモデルのパラメータを更新することによって永続的な除去を求めるが、敵のプロンプトや再学習によって目標となる知識を回復することがしばしばある。
本研究では, この制限は, 埋込層を見下ろす既存手法に起因していると仮定する。
EMBedding ERasure(EMBER)は,Sparse Matrix Factorizationを利用してトークン埋め込みから概念関連機能の正確な消去を行うプラグインn-play消去モジュールである。
Gemma-2-2B-it と Llama-3.1-8B-Instruct の多種多様な概念を包括的に評価することにより,EMBER を用いた既存手法の強化は,タスク形式間の消去効率と特異性を向上し,コヒーレンスロスを最小限に抑えた。
さらに、再学習に対する堅牢性を大幅に改善し、回復した精度を最大50%削減し、Llamaでは35%に制限し、以前の手法では70%-76%に制限した。
さらなる分析により、コヒーレンスコストが局所化され、少数の概念排他トークンにしか影響しないことが示された。
我々の研究は、ロバストな概念消去には正確な埋め込みレベルの介入が必要であることを証明し、既存の方法がそのような拡張の恩恵を受けることを実証する。
関連論文リスト
- CATNIP: LLM Unlearning via Calibrated and Tokenized Negative Preference Alignment [14.853204323785334]
既存のアプローチは、グラディエント・アセント(GA)をルーツとしており、保持データやコントラッシブなペアに頼りながら、一般的なドメイン知識を劣化させることが多い。
我々は,モデルのトークンレベルの信頼度に比例して,未学習効果を再スケールする原理的手法を開発した。
我々の研究は、保持データや対照的なアンラーニング応答ペアを必要とせず、効果的なアンラーニングを可能にする。
論文 参考訳(メタデータ) (2026-02-02T21:23:54Z) - Are We Evaluating the Edit Locality of LLM Model Editing Properly? [68.441768731381]
この目的のために既存の特異性評価プロトコルは不十分であることがわかった。
既存の特異度指標は特異度正規化器の強度と弱い相関関係にある。
また、現在のメトリクスには十分な感度が欠けており、異なるメソッドの特異性性能の区別に効果がないこともわかりました。
論文 参考訳(メタデータ) (2026-01-24T07:07:21Z) - Beyond Memorization: Gradient Projection Enables Selective Learning in Diffusion Models [3.4064487905075294]
大規模テキスト・画像拡散モデルの記憶化は、セキュリティと知的財産権の重大なリスクをもたらす。
概念レベルの機能排除の厳格な要件を強制するために設計されたグラディエント・プロジェクション・フレームワークを導入する。
我々のアプローチは、IPセーフでプライバシ保護された生成AIのための新しいパラダイムを確立します。
論文 参考訳(メタデータ) (2025-12-12T00:50:38Z) - Beyond Superficial Forgetting: Thorough Unlearning through Knowledge Density Estimation and Block Re-insertion [27.526437626781597]
大規模言語モデルに対するブロック再帰(KUnBR)による知識密度誘導学習を提案する。
KUnBRは有害な知識の豊富なレイヤを特定し、再挿入戦略を通じて有害な知識を徹底的に排除する。
いくつかのアンラーニングおよび一般機能ベンチマークで実施された実験は、KUnBRが最先端の忘れたパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-11-11T14:12:43Z) - EKPC: Elastic Knowledge Preservation and Compensation for Class-Incremental Learning [53.88000987041739]
クラスインクリメンタルラーニング(Class-Incremental Learning, CIL)は、AIモデルを、時間とともに異なるクラスのシーケンシャルに到着したデータから継続的に学習可能にすることを目的としている。
本稿では, 重要度を考慮した重要度正規化 (IPR) と CIL のためのトレーニング可能なセマンティックドリフト補償 (TSDC) を統合したElastic Knowledge Preservation and Compensation (EKPC) 法を提案する。
論文 参考訳(メタデータ) (2025-06-14T05:19:58Z) - CURE: Concept Unlearning via Orthogonal Representation Editing in Diffusion Models [7.68494752148263]
CUREは、事前訓練された拡散モデルの重み空間で直接動作する、トレーニング不要の概念未学習フレームワークである。
スペクトル消去器は、安全な属性を保持しながら、望ましくない概念に特有の特徴を特定し、分離する。
CUREは、対象とする芸術スタイル、オブジェクト、アイデンティティ、明示的なコンテンツに対して、より効率的で徹底的な除去を実現する。
論文 参考訳(メタデータ) (2025-05-19T03:53:06Z) - SPEED: Scalable, Precise, and Efficient Concept Erasure for Diffusion Models [56.83154571623655]
モデルパラメータを直接編集する効率的な概念消去手法であるSPEEDを導入する。
Speedyは、パラメータ更新がターゲット以外の概念に影響しないモデル編集スペースであるnullスペースを検索する。
たった5秒で100のコンセプトを消去しました。
論文 参考訳(メタデータ) (2025-03-10T14:40:01Z) - Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models [81.62767292169225]
我々は,その一般化に着目して,大規模言語モデルにおける知識の忘れについて検討する。
確率摂動に基づく新しいアンラーニングパラダイムであるPerMUを提案する。
TOFU、Harry Potter、ZsRE、WMDP、MUSEなど、さまざまなデータセットで実験が行われている。
論文 参考訳(メタデータ) (2025-02-27T11:03:33Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。