論文の概要: LLM Unlearning on Noisy Forget Sets: A Study of Incomplete, Rewritten, and Watermarked Data
- arxiv url: http://arxiv.org/abs/2510.09007v1
- Date: Fri, 10 Oct 2025 05:10:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.117604
- Title: LLM Unlearning on Noisy Forget Sets: A Study of Incomplete, Rewritten, and Watermarked Data
- Title(参考訳): 雑音場におけるLLMの学習:不完全・書き直し・透かしデータの研究
- Authors: Changsheng Wang, Yihua Zhang, Dennis Wei, Jinghan Jia, Pin-Yu Chen, Sijia Liu,
- Abstract要約: 大規模言語モデル(LLM)は、顕著な生成能力を示すが、機密データを記憶することで倫理的およびセキュリティ上の懸念を引き起こす。
この研究は、ノイズのある忘れセットと呼ばれる、摂動的または低忠実な忘れデータの下での未学習に関する最初の研究を提示する。
コアセマンティック信号が保存されている場合、未学習は摂動に対して驚くほど堅牢である。
- 参考スコア(独自算出の注目度): 69.5099112089508
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) exhibit remarkable generative capabilities but raise ethical and security concerns by memorizing sensitive data, reinforcing biases, and producing harmful content. These risks have spurred interest in LLM unlearning, the task of removing knowledge associated with undesirable data from pre-trained models. However, most existing methods assume access to clean, well-defined forget data samples, whereas real-world forget data could often be low-quality, synthetically rewritten, or watermarked, casting doubt on the reliability of unlearning. This work presents the first study of unlearning under perturbed or low-fidelity forget data, referred to as noisy forget sets. By systematically benchmarking state-of-the-art LLM unlearning methods, RMU and NPO, on such noisy forget sets, we find that unlearning remains surprisingly robust to perturbations, provided that core semantic signals are preserved. To explain this robustness, we propose a saliency-based interpretation: key semantic components that drive forgetting remain consistently influential despite substantial variation in surface form. This suggests that unlearning algorithms are primarily guided by deep semantic cues rather than shallow lexical patterns.
- Abstract(参考訳): 大規模言語モデル(LLM)は、顕著な生成能力を示すが、機密データを記憶し、バイアスを補強し、有害なコンテンツを生成することにより、倫理的およびセキュリティ上の懸念を提起する。
これらのリスクは、事前学習されたモデルから望ましくないデータに関連する知識を取り除くタスクであるLLMアンラーニングへの関心を喚起した。
しかし、既存のほとんどの手法では、クリーンで明確に定義された忘れデータサンプルへのアクセスを前提としていますが、現実の忘れデータはしばしば低品質、合成書き換え、透かしで、未学習の信頼性に疑問を投げかけます。
この研究は、ノイズのある忘れセットと呼ばれる、摂動的または低忠実な忘れデータの下での未学習に関する最初の研究を提示する。
従来のLLMアンラーニング手法であるRMUとNPOを,このようなノイズの多い記憶セット上で体系的にベンチマークすることにより,コアセマンティック信号が保存されている場合,未学習は摂動に対して驚くほど堅牢であることがわかった。
このロバスト性を説明するために、表面形状のかなりの変化にもかかわらず、忘れを駆動するキーセマンティックコンポーネントは一貫して影響を受けない。
このことは、未学習アルゴリズムが主に浅い語彙パターンではなく深い意味的手がかりによって導かれることを示唆している。
関連論文リスト
- LoReUn: Data Itself Implicitly Provides Cues to Improve Machine Unlearning [33.62466543549043]
Loss-based Reweighting Unlearning(LoReUn)は、未学習プロセス中に、計算オーバーヘッドを最小限に抑えて動的にデータをリウェイトするプラグイン・アンド・プレイ戦略である。
提案手法は,既存のMU手法と画像分類タスクと生成タスクの正確なアンラーニングのギャップを著しく低減する。
論文 参考訳(メタデータ) (2025-07-30T09:12:25Z) - Unlearning Isn't Deletion: Investigating Reversibility of Machine Unlearning in LLMs [38.837810490068556]
大規模言語モデル(LLM)におけるアンラーニングは、指定されたデータを削除することを目的としているが、その効果は通常、正確性や複雑度のようなタスクレベルのメトリクスで評価される。
最小限の微調整によって元の動作が容易に復元される間、モデルは忘れることができることを実証する。
この表現可能性の現象は、情報は単に抑圧されているだけであり、真に消去されていないことを示唆している。
論文 参考訳(メタデータ) (2025-05-22T16:02:10Z) - GUARD: Generation-time LLM Unlearning via Adaptive Restriction and Detection [36.38245533018162]
大規模言語モデル(LLM)は、多様なドメインにまたがる膨大な知識を記憶する強力な能力を示している。
既存の未学習の取り組みは、通常、モデルを忘れデータ、データ保持、キャリブレーションモデルといったリソースで微調整する。
本稿では,LLM生成時の動的アンラーニングを実現するフレームワークであるAdaptive Restriction and Detection (GUARD) による生成時アンラーニングを提案する。
論文 参考訳(メタデータ) (2025-05-19T16:26:58Z) - CodeUnlearn: Amortized Zero-Shot Machine Unlearning in Language Models Using Discrete Concept [5.345828824625758]
コードブック機能とスパースオートエンコーダ(SAEs)を用いた新しいアンラーニング手法を提案する。
ボトルネックを利用して、アクティベーション空間を分解し、情報の流れを規制することにより、モデルの性能を無関係なデータに保ちながら、ターゲットとなる情報を効率的に解き放つ。
論文 参考訳(メタデータ) (2024-10-08T10:26:22Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - MILD: Modeling the Instance Learning Dynamics for Learning with Noisy
Labels [19.650299232829546]
クリーンなデータを特定するために,Weibull混合モデルに基づく反復的選択手法を提案する。
特に、誤分類と暗記の間の遷移時間を通じて、各インスタンスの暗記の難しさを測定し、暗記する。
我々の戦略は既存の雑音ラベル学習方法より優れている。
論文 参考訳(メタデータ) (2023-06-20T14:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。