論文の概要: Model Collapse Is Not a Bug but a Feature in Machine Unlearning for LLMs
- arxiv url: http://arxiv.org/abs/2507.04219v1
- Date: Sun, 06 Jul 2025 03:08:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.070848
- Title: Model Collapse Is Not a Bug but a Feature in Machine Unlearning for LLMs
- Title(参考訳): モデル崩壊はバグではなく、LLMのための機械学習の特徴
- Authors: Yan Scholten, Sophie Xhonneux, Stephan Günnemann, Leo Schwinn,
- Abstract要約: LLMの現在の未学習方法は、学習目的に組み込むことで、削除しようとしているプライベート情報に基づいて最適化されている。
センシティブなデータへの露出を抑えるリスクだけでなく、その使用を最小化するという原則にも反する、と我々は主張する。
本研究では,未学習目標を学習対象に含まないPMC(Partial Model Collapse)を提案する。
- 参考スコア(独自算出の注目度): 44.8238758047607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current unlearning methods for LLMs optimize on the private information they seek to remove by incorporating it into their training objectives. We argue this not only risks reinforcing exposure to sensitive data, it also fundamentally contradicts the principle of minimizing its use. As a remedy, we propose a novel unlearning method - Partial Model Collapse (PMC), which does not require unlearning targets in the unlearning objective. Our approach is inspired by recent observations that training generative models on their own generations leads to distribution collapse, effectively removing information from the model. Our core idea is to leverage this collapse for unlearning by triggering collapse partially on the sensitive data. We theoretically analyze that our approach converges to the desired outcome, i.e. the LLM unlearns the information in the forget set. We empirically demonstrate that PMC overcomes two key limitations of existing unlearning approaches that explicitly optimize on unlearning targets, and more effectively removes private information from model outputs. Overall, our contributions represent an important step toward more comprehensive unlearning that aligns with real-world privacy constraints. Code available at https://www.cs.cit.tum.de/daml/partial-model-collapse/.
- Abstract(参考訳): LLMの現在の未学習方法は、学習目的に組み込むことで、削除しようとしているプライベート情報に基づいて最適化されている。
センシティブなデータへの露出を抑えるリスクだけでなく、その使用を最小化するという原則にも根本的な矛盾がある、と我々は主張する。
本稿では,未学習目標を学習対象に含まない新しい非学習手法である部分的モデル崩壊(PMC)を提案する。
提案手法は, 自己世代における生成モデルの学習が分散崩壊を招き, 効果的にモデルから情報を取り出すという最近の知見に着想を得たものである。
私たちの中核となる考え方は、この崩壊を利用して、センシティブなデータに部分的に崩壊を引き起こすことで、学びを解き放つことです。
理論的には、我々のアプローチは所望の結果に収束する、すなわち LLM は、忘れられた集合の情報を解き放つ。
PMCは、学習対象を明示的に最適化する既存の未学習アプローチの2つの重要な制限を克服し、より効果的にモデル出力からプライベート情報を削除することを実証的に実証している。
全体として、私たちのコントリビューションは、現実世界のプライバシー制約に沿った、より包括的なアンラーニングへの重要なステップを示しています。
https://www.cs.cit.tum.de/daml/partial-model-collapse/で公開されている。
関連論文リスト
- Align-then-Unlearn: Embedding Alignment for LLM Unlearning [41.94295877935867]
Unlearningは、個人情報や著作権のあるコンテンツなど、訓練されたモデルから特定のデータを選択的に取り除こうとしている。
セマンティック埋め込み空間においてアンラーニングを行う新しいフレームワークであるAlign-then-Unlearnを提案する。
論文 参考訳(メタデータ) (2025-06-16T07:48:01Z) - Multi-Objective Large Language Model Unlearning [3.372396620898397]
グラディエント・アセント(GA)は、対象データ上のモデルの予測確率を減少させるプロアクティブな方法である。
本稿では,多目的大規模言語モデル学習(MOLLM)アルゴリズムを提案する。
実験の結果,MLLM が SOTA GA をベースとした LLM アンラーニング法よりも非ラーニング効果とモデルユーティリティ保存の点で優れていたことが確認された。
論文 参考訳(メタデータ) (2024-12-29T09:35:56Z) - Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [52.03511469562013]
3つのコアコンポーネントで構成されるICU(Iterative Contrastive Unlearning)フレームワークを紹介する。
知識未学習誘導モジュールは、未学習の損失を使用して、特定の知識を除去するためにターゲットとする。
Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を保持する。
イテレーティブ・アンラーニング・リファインメントモジュールは、進行中の評価と更新を通じて、アンラーニングプロセスを動的に調整する。
論文 参考訳(メタデータ) (2024-07-25T07:09:35Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - An Information Theoretic Approach to Machine Unlearning [43.423418819707784]
AIやデータ規則に従うためには、トレーニングされた機械学習モデルからプライベートまたは著作権のある情報を忘れる必要性がますます高まっている。
この研究では、ゼロショットのアンラーニングシナリオに対処し、未学習のアルゴリズムは、トレーニングされたモデルと忘れられるデータだけが与えられたデータを削除できなければならない。
モデルの幾何に基づいて、単純だが原則化されたゼロショットアンラーニング法を導出する。
論文 参考訳(メタデータ) (2024-02-02T13:33:30Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。