論文の概要: SHRED: Retain-Set-Free Unlearning via Self-Distillation with Logit Demotion
- arxiv url: http://arxiv.org/abs/2605.07482v1
- Date: Fri, 08 May 2026 09:25:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.95343
- Title: SHRED: Retain-Set-Free Unlearning via Self-Distillation with Logit Demotion
- Title(参考訳): SHRED:ログ削除による自己蒸留による無学習の維持
- Authors: Zizhao Hu, Ameya Godbole, Johnny Tian-Zheng Wei, Mohammad Rostami, Jesse Thomason, Robin Jia,
- Abstract要約: SHRED (Self-distillation via High-surprisal-only Retain-free Entropy Demotion) は、キーインサイトに基づいて構築された、保持セットなしのアンラーニング手法である。
高情報トークンはモデルの記憶された知識に集中し、低情報トークンは一般的な言語能力を反映する。
SHREDは再学習攻撃やメンバシップ推論攻撃に対して堅牢であり、連続的なアンラーニングの実行が多数あった後も安定したユーティリティを維持している。
- 参考スコア(独自算出の注目度): 39.17638540496959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine unlearning for large language models (LLMs) aims to selectively remove memorized content such as private data, copyrighted text, or hazardous knowledge, without costly full retraining. Most existing methods require a retain set of curated examples to prevent catastrophic degradation of general model utility, creating an extra data dependency that complicates deployment. We propose SHRED (Self-distillation via High-surprisal-only Retain-set-free Entropy Demotion), a retain-set-free unlearning method built on a key insight: not all tokens within a forget set instance carry memorized information equally. High-information tokens concentrate the model's memorized knowledge, while low-information tokens reflect general language competence. SHRED operates in two stages. (1) Selection: We perform a forward pass on a forget set instance, collect per-token autoregressive probabilities, and select the bottom (lowest probability, highest Shannon information) as forget positions; the remaining positions are retained as benign anchors. (2) Training: We construct modified KL targets that demote the memorized token's logit at forget positions while preserving the original distribution at benign positions. The model is then trained via a single top KL self-distillation objective that simultaneously drives forgetting and utility preservation. We evaluate SHRED across four standard unlearning benchmarks and demonstrate that it establishes a new Pareto-optimal trade-off between forget efficacy and model utility, outperforming retain-set-dependent methods. Our analysis shows that SHRED is robust against relearning attacks and membership-inference attacks, and it maintains stable utility even after many sequential unlearning runs.
- Abstract(参考訳): 大規模言語モデル(LLM)の機械学習は、プライベートデータ、著作権のあるテキスト、有害な知識などの記憶されたコンテンツを、コストのかかるフルリトレーニングなしで選択的に削除することを目的としている。
既存のほとんどのメソッドでは、一般的なモデルユーティリティの破滅的な劣化を防止し、デプロイを複雑にする余分なデータ依存を生成するために、一連のキュレートされた例が必要です。
我々は,キーインサイト上に構築された残差のないアンラーニング手法であるSHRED(Self-distillation via High-surprisal-only Retain-set-free Entropy Demotion)を提案する。
高情報トークンはモデルの記憶された知識に集中し、低情報トークンは一般的な言語能力を反映する。
SHREDは2つの段階に分かれている。
1) 選択: エラーセットインスタンスのフォワードパスを実行し, トーケン毎の自己回帰確率を収集し, ボトム(最も低い確率, 高いシャノン情報)をリザーブポジションとして選択し, 残りの位置をベニグアンカーとして保持する。
2) トレーニング: 元の分布を良位置で保存しながら, 記憶されたトークンのロジットを忘れ位置で復号する改良KLターゲットを構築した。
モデルは、忘れ物とユーティリティ保存を同時に駆動する単一のトップKL自己蒸留目標によってトレーニングされる。
SHREDを4つの標準アンラーニングベンチマークで評価し、レザーブセットに依存した手法よりも優れた、忘れの有効性とモデルユーティリティとの間の新たなパレート最適トレードオフを確立することを実証した。
解析の結果,SHREDは再学習攻撃やメンバシップ推論攻撃に対して頑健であり,連続的なアンラーニングを実行した後でも安定したユーティリティを維持していることがわかった。
関連論文リスト
- Before Forgetting, Learn to Remember: Revisiting Foundational Learning Failures in LVLM Unlearning Benchmarks [17.78493115982036]
LVLM(Large Vision-Language Models)は、機密性の高い個人情報を意図せずに記憶することで、プライバシー上のリスクを引き起こす。
信頼性の高いマルチホップおよびマルチイメージ記憶ベンチマークであるReMemを紹介する。
我々はReMemがLVLMの学習行動と未学習行動の両方を診断するための厳格で信頼性の高いフレームワークを提供することを示した。
論文 参考訳(メタデータ) (2026-05-05T13:42:31Z) - Rethinking Machine Unlearning: Models Designed to Forget via Key Deletion [18.166109788922153]
モデルを直接訓練して、忘れることを支援する新しいパラダイムである、設計によるアンラーニングを提案する。
我々はこのアイデアを、モデルウェイトからインスタンス固有の記憶を分離するメモリ拡張トランスフォーマーであるKEY deletion (MUNKEY)を介して、Machine UNlearningでインスタンス化する。
その結果、設計によるアンラーニングは、予測性能を維持しながら、高速でデプロイ指向のアンラーニングを可能にすることが判明した。
論文 参考訳(メタデータ) (2026-03-16T09:33:29Z) - LLM Unlearning on Noisy Forget Sets: A Study of Incomplete, Rewritten, and Watermarked Data [69.5099112089508]
大規模言語モデル(LLM)は、顕著な生成能力を示すが、機密データを記憶することで倫理的およびセキュリティ上の懸念を引き起こす。
この研究は、ノイズのある忘れセットと呼ばれる、摂動的または低忠実な忘れデータの下での未学習に関する最初の研究を提示する。
コアセマンティック信号が保存されている場合、未学習は摂動に対して驚くほど堅牢である。
論文 参考訳(メタデータ) (2025-10-10T05:10:49Z) - Pre-Forgettable Models: Prompt Learning as a Native Mechanism for Unlearning [9.512928441517811]
ファンデーションモデルは、様々なモダリティやタスクにまたがる堅牢で伝達可能な表現を可能にすることによって、マルチメディア分析を変革してきた。
リトレーニング、アクティベーション編集、蒸留を含む従来の未学習のアプローチは、しばしば高価で脆弱で、リアルタイムまたは継続的な進化するシステムに不適である。
本稿では,知識の獲得と除去を1つの学習段階内に統一する,プロンプトベースの学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-05T13:28:04Z) - GUARD: Generation-time LLM Unlearning via Adaptive Restriction and Detection [36.38245533018162]
大規模言語モデル(LLM)は、多様なドメインにまたがる膨大な知識を記憶する強力な能力を示している。
既存の未学習の取り組みは、通常、モデルを忘れデータ、データ保持、キャリブレーションモデルといったリソースで微調整する。
本稿では,LLM生成時の動的アンラーニングを実現するフレームワークであるAdaptive Restriction and Detection (GUARD) による生成時アンラーニングを提案する。
論文 参考訳(メタデータ) (2025-05-19T16:26:58Z) - Learning to Unlearn: Instance-wise Unlearning for Pre-trained
Classifiers [71.70205894168039]
そこでは、事前訓練されたモデルからインスタンスのセットに関する情報を削除することを目標としています。
本稿では,1)表現レベルでの忘れを克服するために,敵の例を活用すること,2)不必要な情報を伝播するネットワークパラメータをピンポイントする重み付け指標を活用すること,の2つの方法を提案する。
論文 参考訳(メタデータ) (2023-01-27T07:53:50Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。