論文の概要: Forgetting That Sticks: Quantization-Permanent Unlearning via Circuit Attribution
- arxiv url: http://arxiv.org/abs/2605.15138v1
- Date: Thu, 14 May 2026 17:44:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.993845
- Title: Forgetting That Sticks: Quantization-Permanent Unlearning via Circuit Attribution
- Title(参考訳): 量子化(quantization-Permanent Unlearning)は、回路属性による学習
- Authors: Saisab Sadhu, Pratinav Seth, Vinay Kumar Sankarapu,
- Abstract要約: 量子化を乗り越える手法はモデルにほとんど変化しないが, 圧縮条件下では, 有意義な忘れ方を実現するための勾配に基づく手法を示す。
因果回路の属性を組み合わせることで両モードを解消し,最小限の差分集合部分グラフを分離するMANSUを提案する。
さらに,構造的消去と行動抑制を区別する機構的検証尺度であるCircuit Attribution Divergence(CAD)を導入する。
- 参考スコア(独自算出の注目度): 3.6704226968275253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard unlearning evaluations measure behavioral suppression in full precision, immediately after training, despite every deployed language model being quantized first. Recent work has shown that 4-bit post-training quantization can reverse machine unlearning; we show this is not a tuning artefact but a systematic dual failure: gradient-based methods that achieve meaningful forgetting lose it under compression, while methods that survive quantization barely change the model. Both failures trace to the same root cause: across all baselines, per-parameter updates lie 47-828x below the NF4 quantization bin width; updates diffused across billions of parameters cannot clear quantization bin boundaries, a consequence we formalize as a sparsity-permanence tradeoff. We present MANSU (Mechanistic-Aligned Null-Space Unlearning), which resolves both modes by combining causal circuit attribution to isolate the minimal forget-set subgraph, circuit-restricted null-space projection with a diagonal-Fisher retain bound, and a per-parameter magnitude floor guaranteeing quantization survival by construction. We additionally introduce Circuit Attribution Divergence (CAD), a mechanistic verification metric distinguishing structural erasure from behavioral suppression, a distinction existing metrics cannot make. Across multiple model families and hazard benchmarks, MANSU is the first method to jointly satisfy all four properties with margin on each (meaningful forgetting, retain preservation, non-positive PTQ gap, and structural erasure), while gradient-based baselines recover up to +0.05 accuracy under compression.
- Abstract(参考訳): 標準のアンラーニング評価は、すべてのデプロイされた言語モデルが最初に量子化されているにもかかわらず、訓練直後の完全な精度で行動抑制を測定する。
近年の研究では、4ビットのポストトレーニング量子化が機械学習を逆転させることが示されている。これはチューニングアーチファクトではなく、体系的な二重障害である。
どちらの障害も同じ根本原因を辿っている: 全てのベースラインにわたって、パラメータごとの更新はNF4量子化ビン幅より47-828倍低い。
本稿では,最小の誤り集合部分グラフを分離するために因果回路属性を組み合わせることで両モードを解消するMANSU(Mechanistic-Aligned Null-Space Unlearning)を提案する。
さらに,構造的消去と行動抑制を区別する機構的検証尺度であるCircuit Attribution Divergence(CAD)を導入する。
複数のモデルファミリとハザードベンチマークで、MANSUは各4つの特性をそれぞれマージンで共同で満たす最初の方法である(つまり、忘れ、保存、非正のPTQギャップ、構造的消去)が、一方、勾配ベースのベースラインは圧縮下で+0.05精度まで回復する。
関連論文リスト
- Quantization Dominates Rank Reduction for KV-Cache Compression [0.0]
量子化は、モデルと圧縮レベルに応じて、4-364 PPLのランク低下を一貫して上回る。
我々は、ソフトマックスフィッシャー計量の下で、投射損傷が1方向に3 x 2 (2b) の量子化損傷を超える結果によってこれを定式化する。
論文 参考訳(メタデータ) (2026-04-13T14:06:18Z) - BASIS: Balanced Activation Sketching with Invariant Scalars for "Ghost Backpropagation" [0.0]
正確なバックプロパゲーションに必要な活性化メモリは、ネットワーク深さ、コンテキスト長、特徴次元と線形にスケールする。
本稿では,活性化メモリをバッチ次元とシーケンス次元から完全に分離する効率的なバックプロパゲーションアルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-03-05T20:38:25Z) - Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning [17.384089089363382]
既存の手法が見落としている根本原因を同定する。
現在のアプローチでは、グループ内のすべての誤ったロールアウトを同一に扱う。
非対称信頼度を考慮した誤り罰(ACE)を提案する。
論文 参考訳(メタデータ) (2026-02-24T22:46:43Z) - BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models [56.504879072674015]
本稿では,ビットプレーンとスカラー係数による可変量子化グリッドを構成するビットプレーン分解量子化(BPDQ)を提案する。
BPDQは、1つのGTX 3090上でQwen2.5-72Bを83.85%のGSM8Kの精度で提供できる(ただし16ビットでは90.83%)。
論文 参考訳(メタデータ) (2026-02-04T02:54:37Z) - Phase-space entropy at acquisition reflects downstream learnability [54.4100065023873]
楽器分解位相空間に基づく取得レベルスカラー$S_mathcal B$を提案する。
本稿では, (S_mathcal B) が周期サンプリングの位相空間コヒーレンスを正確に同定できることを理論的に示す。
$|S_mathcal B|$は一貫してサンプリングジオメトリをランク付けし、トレーニングなしで下流での再構築/認識の困難を予測します。
論文 参考訳(メタデータ) (2025-12-22T10:03:51Z) - Geometric-Disentangelment Unlearning [106.99160454669902]
忘れたサンプルへの勾配は しばしば 保持された知識を傷つける
本稿では,GU(Geometric-disment Unlearning)を提案する。
本手法はプラグ・アンド・プレイであり,既存の勾配に基づくアンラーニング手法と併用することで副作用を軽減できる。
論文 参考訳(メタデータ) (2025-11-21T09:58:25Z) - CAGE: Curvature-Aware Gradient Estimation For Accurate Quantization-Aware Training [73.46600457802693]
本稿では,量子化による損失に対応する新しい手法を提案する。
CAGEは、同様の計算コストで、精度の観点から最先端の手法を大幅に改善する。
LlamaモデルのQAT事前トレーニングでは、CAGEは4ビット(W4A4)で達成された精度と事前のベストメソッドとを一致させる。
論文 参考訳(メタデータ) (2025-10-21T16:33:57Z) - Post-Hoc Split-Point Self-Consistency Verification for Efficient, Unified Quantification of Aleatoric and Epistemic Uncertainty in Deep Learning [5.996056764788456]
不確実性定量化(UQ)は、信頼できる深層学習には不可欠であるが、既存の手法は計算集約的であるか、タスク固有の部分的な見積もりのみを提供する。
本研究では,事前訓練したモデルの変更や再訓練を伴わずに,アレタリックおよびてんかんの不確実性を共同でキャプチャするポストホック・シングルフォワード・パス・フレームワークを提案する。
提案手法は,EmphSplit-Point Analysis (SPA) を用いて,予測残差を上下サブセットに分解し,各側でEmphMean Absolute Residuals (MAR) を演算する。
論文 参考訳(メタデータ) (2025-09-16T17:16:01Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。