論文の概要: Representation-Aware Unlearning via Activation Signatures: From Suppression to Knowledge-Signature Erasure
- arxiv url: http://arxiv.org/abs/2601.10566v1
- Date: Thu, 15 Jan 2026 16:28:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.226556
- Title: Representation-Aware Unlearning via Activation Signatures: From Suppression to Knowledge-Signature Erasure
- Title(参考訳): アクティベーションシグナチャによる表現認識の非学習:抑圧から知識-シグナチャエロージャへ
- Authors: Syed Naveed Mahmood, Md. Rezaur Rahman Bhuiyan, Tasfia Zaman, Jareen Tasneem Khondaker, Md. Sameer Sakib, Nazia Tasnim, Farig Sadeque,
- Abstract要約: 本稿では,真の消去と難読化を区別する表現対応アーキテクチャであるKnowledge Immunization Framework(KIF)を紹介する。
提案手法は,主観的表現の動的抑制とパラメータ効率の適応を組み合わせ,完全モデル再学習を伴わない耐久性のある未学習を実現する。
- 参考スコア(独自算出の注目度): 2.0880077827773227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Selective knowledge erasure from LLMs is critical for GDPR compliance and model safety, yet current unlearning methods conflate behavioral suppression with true knowledge removal, allowing latent capabilities to persist beneath surface-level refusals. In this work, we address this challenge by introducing Knowledge Immunization Framework (KIF), a representation-aware architecture that distinguishes genuine erasure from obfuscation by targeting internal activation signatures rather than surface outputs. Our approach combines dynamic suppression of subject-specific representations with parameter-efficient adaptation, enabling durable unlearning without full model retraining. KIF achieves near-oracle erasure (FQ approx 0.99 vs. 1.00) while preserving utility at oracle levels (MU = 0.62), effectively breaking the stability-erasure tradeoff that has constrained all prior work. We evaluate both standard foundation models (Llama and Mistral) and reasoning-prior models (Qwen and DeepSeek) across 3B to 14B parameters. Our observation shows that standard models exhibit scale-independent true erasure (<3% utility drift), while reasoning-prior models reveal fundamental architectural divergence. Our comprehensive dual-metric evaluation protocol, combining surface-level leakage with latent trace persistence, operationalizes the obfuscation - erasure distinction and enables the first systematic diagnosis of mechanism-level forgetting behavior across model families and scales.
- Abstract(参考訳): LLMsから選択された知識消去はGDPRの遵守とモデル安全性にとって重要であるが、現在の未学習手法では、行動抑制を真の知識除去と説明し、潜伏能力は表面レベルの拒絶の下で持続することができる。
本研究では,表面出力ではなく内部アクティベーションシグネチャをターゲットとして,真の消去と難読化を区別する表現対応アーキテクチャであるKnowledge Immunization Framework(KIF)を導入することで,この問題に対処する。
提案手法は,主観的表現の動的抑制とパラメータ効率の適応を組み合わせ,完全モデル再学習を伴わない耐久性のある未学習を実現する。
KIFは、オラクルレベル(MU = 0.62)で実用性を保ちながら、概日光消去(FQ法 0.99 対 1.00 対 0.99 対 1.00)を達成する。
標準基礎モデル(LlamaとMistral)と推論優先モデル(QwenとDeepSeek)を3Bから14Bパラメータで評価する。
本研究により, 標準モデルはスケール非依存の真の消去(3%ユーティリティドリフト)を示し, 推理モデルでは基本的アーキテクチャのばらつきを示した。
我々の総合的な2次元評価プロトコルは、表面レベルのリークと潜時トレースの持続性を組み合わせ、難読化と消去の区別を運用し、モデルファミリとスケールをまたいだメカニズムレベルの忘れ行動の最初の体系的診断を可能にする。
関連論文リスト
- Explainability-Guided Defense: Attribution-Aware Model Refinement Against Adversarial Data Attacks [6.573058520271728]
私たちは、トレーニング中に直接活用できる、解釈可能性と堅牢性との関連性を特定します。
本稿では,局所解釈可能なモデル非依存表現をアクティブな訓練信号に変換する属性誘導型改良フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-02T19:36:03Z) - Fragile Knowledge, Robust Instruction-Following: The Width Pruning Dichotomy in Llama-3.2 [0.0]
我々は,MAW誘導幅の刈り取りが選択フィルタとして機能し,行動アライメントを保ちつつパラメトリック知識を減少させることを示す。
プルーニングされた構成は、エネルギー消費(J/Token)を最大で23%削減するが、単一要求レイテンシで罰則が生じる。
論文 参考訳(メタデータ) (2025-12-27T18:09:57Z) - Towards Unsupervised Causal Representation Learning via Latent Additive Noise Model Causal Autoencoders [1.9732490977700972]
教師なし表現学習は、潜伏する生成因子を回復しようとする。
観測データから因果変数を遠ざけることは、監督なしでは不可能である。
本研究では、非教師付き発見のための強力な誘導バイアスとして、Latent Additive Noise Model Causal Autoencoder (LANCA)を提案する。
論文 参考訳(メタデータ) (2025-12-15T10:52:30Z) - SG-OIF: A Stability-Guided Online Influence Framework for Reliable Vision Data [6.4391040754741296]
本稿では,テスト予測に対するトレーニングポイントの影響を近似するための安定誘導オンライン影響フレームワーク(SG-OIF)を提案する。
CIFAR-10の上位1%の予測サンプルでは,SG-OIFが91.1%,MNISTの99.8%のAUPRスコアが得られた。
論文 参考訳(メタデータ) (2025-11-21T19:58:54Z) - Measure-Theoretic Anti-Causal Representation Learning [29.12751904333385]
反因果設定(ラベルは逆ではなく特徴を引き起こす)における因果表現学習は、固有の課題を提示する。
本稿では,反因果表現学習のための新しい測度理論フレームワークである反因果不変抽象化(ACIA)を提案する。
ACIAは2段階の設計を採用し、低レベルの表現はラベルがどのように観測を生成しているかを捉え、高レベルの表現は環境固有のバリエーションを越えて安定した因果パターンを学習する。
論文 参考訳(メタデータ) (2025-10-16T22:13:05Z) - DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。
DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。
SLIMはセマンティックリークに特化した最初のデータセットである。
論文 参考訳(メタデータ) (2025-10-16T17:39:21Z) - MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。
textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。
実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文 参考訳(メタデータ) (2025-10-10T11:40:27Z) - UniErase: Towards Balanced and Precise Unlearning in Language Models [69.04923022755547]
大規模言語モデル(LLM)は、古い情報問題に対処するために反復的な更新を必要とする。
UniEraseは、知識の未学習と能力保持の間の精度とバランスの取れたパフォーマンスを示す、新しいアンラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。
評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。