論文の概要: Learning What to Forget: Improving LLM Unlearning via Learned Token-Level Importance
- arxiv url: http://arxiv.org/abs/2606.06320v1
- Date: Thu, 04 Jun 2026 15:56:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.925146
- Title: Learning What to Forget: Improving LLM Unlearning via Learned Token-Level Importance
- Title(参考訳): 忘れるべきことの学習 - 学習トークンレベルの重要度によるLLMアンラーニングの改善
- Authors: Gizem Yüce, Giorgos Nikolaou, Nicolas Flammarion,
- Abstract要約: 本稿では,トークンの忘れやすさとモデルパラメータを共同で学習する軽量フレームワークであるAlternating Token-Weighted Unlearning(ATWU)を紹介する。
ATWUは、最先端のトレードオフ、サンプルレベルの方法、確率ベースのトークン重み付け、補助モデルベースのアプローチを実現している。
- 参考スコア(独自算出の注目度): 30.72675145829489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine unlearning aims to remove targeted knowledge from a trained model while preserving its general capabilities. For autoregressive language models, not all tokens in a forget sample are equally relevant to forgetting. Existing approaches either ignore this heterogeneity or rely on auxiliary models, heuristics, or external annotations to estimate each token's relevance for forgetting. We instead characterize it through the interaction with the retain objective: a token is forget-specific to the extent that minimizing the forget loss on that token does not conflict with retain optimality. We formalize this perspective as a joint optimization problem over the model parameters and the token weights and show that, under a natural separation condition, the resulting objective recovers the oracle forget-specific token support. Motivated by this formulation, we introduce Alternating Token-Weighted Unlearning (ATWU), a lightweight framework that jointly learns token forget-specificity and model parameters during unlearning using a simple linear scorer over the hidden states, without external token level supervision. Across TOFU and RWKU, ATWU achieves state of the art forget-retain trade-offs, outperforming sample-level methods, probability-based token weighting heuristics, and auxiliary-model-based approaches. Moreover, the learned scores align substantially better with ground truth forget-specific spans, indicating that ATWU identifies semantically meaningful token level forgetting signals. Overall, our results suggest that retain conflict provides an effective criterion for identifying what language models should forget, enabling unsupervised learning of token level forget-specificity directly from model representations with minimal computational overhead.
- Abstract(参考訳): 機械学習は、訓練されたモデルから対象とする知識を取り除き、その一般的な能力を維持することを目的としている。
自動回帰言語モデルでは、忘れられたサンプルのすべてのトークンが、忘れることと同等に関係しているわけではない。
既存のアプローチでは、この異種性を無視したり、補助的なモデル、ヒューリスティックスや外部アノテーションに依存して、それぞれのトークンが忘れることの関連性を見積もっている。
その代わりに、保持対象との相互作用によって特徴付ける:トークンは、そのトークンの忘れ損失を最小限に抑える程度に、忘れ固有である。
モデルパラメータとトークン重みに対する共同最適化問題としてこの視点を定式化し、自然な分離条件下では、結果として得られた目的がオラクルの忘れ物固有のトークンサポートを回復することを示す。
この定式化に触発されたAlternating Token-Weighted Unlearning(ATWU)は,外部トークンレベルの監視を伴わずに,単純な線形スコアラを用いて学習中にトークンの忘れ特異性とモデルパラメータを共同で学習する軽量フレームワークである。
TOFU と RWKU 全体で、ATWU は最先端の忘れられたトレードオフ、サンプルレベルの方法、確率ベースのトークン重み付けヒューリスティックス、補助モデルベースのアプローチを実現している。
さらに,ATWUは意味論的に意味のあるトークンレベルを忘れる信号を認識していることを示す。
全体として,コンフリクトの保持は,どの言語モデルを忘れるべきかを特定する効果的な基準となり,最小の計算オーバーヘッドを持つモデル表現から直接トークンレベルの忘れ特化を教師なしの学習を可能にすることが示唆された。
関連論文リスト
- SHRED: Retain-Set-Free Unlearning via Self-Distillation with Logit Demotion [39.17638540496959]
SHRED (Self-distillation via High-surprisal-only Retain-free Entropy Demotion) は、キーインサイトに基づいて構築された、保持セットなしのアンラーニング手法である。
高情報トークンはモデルの記憶された知識に集中し、低情報トークンは一般的な言語能力を反映する。
SHREDは再学習攻撃やメンバシップ推論攻撃に対して堅牢であり、連続的なアンラーニングの実行が多数あった後も安定したユーティリティを維持している。
論文 参考訳(メタデータ) (2026-05-08T09:25:18Z) - MeGU: Machine-Guided Unlearning with Target Feature Disentanglement [73.49657372882082]
本稿では,概念意識の再調整を通じて学習をガイドする新しいフレームワークを提案する。
MeGUは制御的かつ選択的に忘れることを可能にし、アンダーアンラーニングとオーバーアンラーニングの両方を効果的に緩和する。
論文 参考訳(メタデータ) (2026-02-19T05:20:31Z) - Towards Benign Memory Forgetting for Selective Multimodal Large Language Model Unlearning [49.274436951541425]
MLLM(Multimodal Large Language Models)は優れた能力を発揮するが、プライバシーに敏感な情報を不注意に記憶することができる。
既存の未学習の手法は、しばしばモデルの一般的な画像理解性能を劣化させるため、良心的な忘れを達成できない。
本稿では, メモリ領域のメモリ領域への忘れを抑えつつ, 全体的な機能を維持するSculpted Forgetting Adapter (SMFA)を提案する。
論文 参考訳(メタデータ) (2025-11-25T11:22:45Z) - LLM Unlearning on Noisy Forget Sets: A Study of Incomplete, Rewritten, and Watermarked Data [69.5099112089508]
大規模言語モデル(LLM)は、顕著な生成能力を示すが、機密データを記憶することで倫理的およびセキュリティ上の懸念を引き起こす。
この研究は、ノイズのある忘れセットと呼ばれる、摂動的または低忠実な忘れデータの下での未学習に関する最初の研究を提示する。
コアセマンティック信号が保存されている場合、未学習は摂動に対して驚くほど堅牢である。
論文 参考訳(メタデータ) (2025-10-10T05:10:49Z) - Direct Token Optimization: A Self-contained Approach to Large Language Model Unlearning [9.42887167048224]
マシン・アンラーニング(英: Machine unlearning)は、トレーニングデータのサブセット(ターゲットセット)の影響を、完全なリトレーニングなしでモデルから排除する新興技術である。
重要な課題は、モデルが全体的なユーティリティを損なうことなく、忘れた集合の知識を完全に忘れることである。
我々は,大規模言語モデルに対する自己完結型非学習手法であるダイレクトトークン最適化(DTO)を提案する。
論文 参考訳(メタデータ) (2025-09-30T18:05:06Z) - Efficient Machine Unlearning via Influence Approximation [75.31015485113993]
インフルエンサーベースのアンラーニングは、個別のトレーニングサンプルがモデルパラメータに与える影響を再トレーニングせずに推定する顕著なアプローチとして現れてきた。
本稿では,暗記(増分学習)と忘れ(未学習)の理論的関連性を確立する。
本稿では、インフルエンス近似アンラーニングアルゴリズムを導入し、インクリメンタルな視点から効率的なマシンアンラーニングを行う。
論文 参考訳(メタデータ) (2025-07-31T05:34:27Z) - Not Every Token Needs Forgetting: Selective Unlearning to Limit Change in Utility in Large Language Model Unlearning [95.53571199301963]
従来のアンラーニングアプローチでは、ターゲットドキュメント内のすべてのトークンを忘れるために、モデルのパラメータを無差別に更新する。
本研究では,選択的アンラーニング(SU)を提案する。これは,不要な情報に関連付けられた,忘れる集合内のトークンの重要なサブセットを識別する。
2つのベンチマークと6つのベースラインのアンラーニングアルゴリズムの実験により、SUは対象の忘れたデータに対して効果的なアンラーニングを達成するだけでなく、保持セットにおけるモデルの実用性を著しく維持することを示した。
論文 参考訳(メタデータ) (2025-06-01T07:36:45Z) - GUARD: Generation-time LLM Unlearning via Adaptive Restriction and Detection [36.38245533018162]
大規模言語モデル(LLM)は、多様なドメインにまたがる膨大な知識を記憶する強力な能力を示している。
既存の未学習の取り組みは、通常、モデルを忘れデータ、データ保持、キャリブレーションモデルといったリソースで微調整する。
本稿では,LLM生成時の動的アンラーニングを実現するフレームワークであるAdaptive Restriction and Detection (GUARD) による生成時アンラーニングを提案する。
論文 参考訳(メタデータ) (2025-05-19T16:26:58Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。