論文の概要: Inference-Time Machine Unlearning via Gated Activation Redirection
- arxiv url: http://arxiv.org/abs/2605.12765v2
- Date: Mon, 18 May 2026 16:57:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:45.791826
- Title: Inference-Time Machine Unlearning via Gated Activation Redirection
- Title(参考訳): Gated Activation Redirectionによる推論時間機械の学習
- Authors: Vinícius Conte Turani, Otávio Parraga, João Vitor Boer Abitante, Kristen K. Arguello, Joana Pasquali, Ramiro N. Barros, Flavio du Pin Calmon, Christian Mattjie, Rodrigo C. Barros, Lucas S. Kupssinskü,
- Abstract要約: ゲーテッド・アクティベーション・リダイレクト(GUARD-IT)による推論時間学習の導入
GUARD-ITは入力依存のアクティベーションステアリングを推論時に解き放ち、モデルの重みはそのまま残す。
TOFUとMUSEの実験では、GUARD-ITは3つのモデルスケールで12の勾配ベースラインと一致するか、あるいは超えている。
- 参考スコア(独自算出の注目度): 1.1699531043716684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models memorize vast amounts of training data, raising concerns regarding privacy, copyright infringement, and safety. Machine unlearning seeks to remove the influence of a targeted forget set while preserving model performance, ideally approximating a model retrained from scratch without the forget set. Existing approaches aim to achieve this by updating model parameters via gradient-based methods. However, these updates are computationally expensive, lead to irreversible weight changes, and degrade when the model is quantized for deployment. A recent alternative to changing model weights is activation engineering, where activations are changed during inference to steer model behavior. Despite circumventing weight editing, naive activation steering introduces its own failure modes, as a single global steering vector applies the same intervention to every input, leading to unintended changes in model behavior. We introduce Inference-Time Unlearning via Gated Activation Redirection (GUARD-IT), a training- and gradient-free method that unlearns via input-dependent activation steering at inference time. The resulting intervention is applied as a norm-preserving rotation in the residual stream, leaving model weights untouched. Experiments on TOFU and MUSE show that GUARD-IT matches or exceeds 12 gradient-based baselines across three model scales, while being the only method to simultaneously preserve utility, suppress memorization, and avoid catastrophic collapse across all settings. GUARD-IT further supports continual unlearning without retraining, and remains effective under quantization, a scenario in which parameter-editing methods degrade.
- Abstract(参考訳): 大規模言語モデルは膨大な量のトレーニングデータを記憶し、プライバシー、著作権侵害、安全に関する懸念を提起する。
マシン・アンラーニングは、モデルのパフォーマンスを維持しながら、ターゲットとなる忘れセットの影響を取り除くことを目的としており、理想的には、忘れセットなしでゼロから再訓練されたモデルを近似する。
既存のアプローチは、勾配ベースの手法でモデルパラメータを更新することで、これを実現することを目指している。
しかし、これらの更新は計算コストが高く、重量の変化が不可逆的になり、モデルがデプロイのために定量化されると劣化する。
最近のモデルウェイトの変更の代替として、アクティベーションエンジニアリングがあり、そこでは、ステアモデルの振る舞いに対する推論中にアクティベーションが変更される。
ウェイト編集の回避にもかかわらず、ナイーブアクティベーションステアリングは独自のフェールモードを導入し、単一のグローバルステアリングベクターが全ての入力に同じ介入を施し、意図しないモデル動作の変化をもたらす。
本稿では, Gated Activation Redirection (GUARD-IT) による推論時間非学習(Inference-Time Unlearning)を導入する。
結果として生じる介入は、残留ストリームの標準保存回転として適用され、モデルの重みは触れられていない。
TOFUとMUSEの実験では、GUARD-ITは3つのモデルスケールにまたがって12の勾配ベースのベースラインと一致し、同時に実用性を維持し、記憶を抑え、すべての設定で破滅的な崩壊を避ける唯一の方法である。
GUARD-ITはさらに、再トレーニングなしに継続的アンラーニングをサポートし、パラメータ編集メソッドが劣化するシナリオである量子化の下でも有効である。
関連論文リスト
- Not Every Subject Should Stay: Machine Unlearning for Noisy Engagement Recognition [53.005382593686356]
エンゲージメント認識データセットは典型的には主観的インデクシングであり、しばしば騒々しく主観的な監督を含んでいる。
本研究では、この設定を、エンゲージメント認識のためのポストホック衛生機構として、主観レベルマシンアンラーニングを通して研究する。
論文 参考訳(メタデータ) (2026-05-06T10:03:06Z) - RePAIR: Interactive Machine Unlearning through Prompt-Aware Model Repair [1.7118181664522618]
大規模言語モデル(LLM)は、大規模ウェブコーパスでの事前学習において、有害な知識、誤情報、個人データを本質的に吸収する。
対話型機械学習(Interactive Machine Unlearning, IMU)は,LLMに推論時に自然言語で目的とする知識を忘れるように指示する新しいパラダイムである。
RePAIR は (i) 学習意図検出のための監視犬モデル, (ii) 修復手順を生成する外科医モデル, (iii) パラメータを自律的に更新する患者モデルから構成される。
論文 参考訳(メタデータ) (2026-04-14T14:44:45Z) - From Gradients to Riccati Geometry: Kalman World Models for Single-Pass Learning [0.0]
バックプロパゲーションは現代の機械学習を支配しているが、力学系を最適化する唯一の原則的手法ではない。
ベイズフィルタを用いて学習した学習状態空間モデルであるKalman World Models (KWM)を提案する。
我々は,このフレームワークをトランスフォーマーベースの大規模言語モデル (LLM) に拡張し,内部アクティベーションを潜在動的状態の修正として扱う。
論文 参考訳(メタデータ) (2026-03-13T00:30:30Z) - Is Gradient Ascent Really Necessary? Memorize to Forget for Machine Unlearning [71.96329385684395]
勾配上昇(GA)に代わるモデル外挿法を提案する。
言い換えると、記憶モデルから参照モデルへの外挿によって、忘れモデルが得られる。
モデル外挿法の実装はシンプルで効率的であり、トレーニング全体を通して効果的に収束し、未学習のパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2026-02-06T07:11:27Z) - UniErase: Towards Balanced and Precise Unlearning in Language Models [69.04923022755547]
大規模言語モデル(LLM)は、古い情報問題に対処するために反復的な更新を必要とする。
UniEraseは、知識の未学習と能力保持の間の精度とバランスの取れたパフォーマンスを示す、新しいアンラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - Machine Unlearning on Pre-trained Models by Residual Feature Alignment Using LoRA [15.542668474378633]
本稿では,事前学習モデルを用いた新しい機械学習手法を提案する。
LoRAを利用して、モデルの中間機能を事前訓練された特徴と残像に分解する。
本手法は,保持集合上のゼロ残差を学習し,未学習集合上でシフト残差を学習することを目的としている。
論文 参考訳(メタデータ) (2024-11-13T08:56:35Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - Gradient Surgery for One-shot Unlearning on Generative Model [0.989293617504294]
我々は、深層生成モデルに影響を及ぼすデータを取り除くための、単純で効果的なアプローチを導入する。
マルチタスク学習における作業に触発されて,サンプル間の影響の相互作用を規則化する勾配の操作を提案する。
論文 参考訳(メタデータ) (2023-07-10T13:29:23Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。