論文の概要: SoK: Machine Unlearning for Large Language Models
- arxiv url: http://arxiv.org/abs/2506.09227v1
- Date: Tue, 10 Jun 2025 20:30:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.075057
- Title: SoK: Machine Unlearning for Large Language Models
- Title(参考訳): SoK: 大規模言語モデルのための機械学習
- Authors: Jie Ren, Yue Xing, Yingqian Cui, Charu C. Aggarwal, Hui Liu,
- Abstract要約: 大規模言語モデル(LLM)アンラーニングは機械学習において重要なトピックとなっている。
未学習の意図に基づく新しい分類法を提案する。
- 参考スコア(独自算出の注目度): 14.88062383081161
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) unlearning has become a critical topic in machine learning, aiming to eliminate the influence of specific training data or knowledge without retraining the model from scratch. A variety of techniques have been proposed, including Gradient Ascent, model editing, and re-steering hidden representations. While existing surveys often organize these methods by their technical characteristics, such classifications tend to overlook a more fundamental dimension: the underlying intention of unlearning--whether it seeks to truly remove internal knowledge or merely suppress its behavioral effects. In this SoK paper, we propose a new taxonomy based on this intention-oriented perspective. Building on this taxonomy, we make three key contributions. First, we revisit recent findings suggesting that many removal methods may functionally behave like suppression, and explore whether true removal is necessary or achievable. Second, we survey existing evaluation strategies, identify limitations in current metrics and benchmarks, and suggest directions for developing more reliable and intention-aligned evaluations. Third, we highlight practical challenges--such as scalability and support for sequential unlearning--that currently hinder the broader deployment of unlearning methods. In summary, this work offers a comprehensive framework for understanding and advancing unlearning in generative AI, aiming to support future research and guide policy decisions around data removal and privacy.
- Abstract(参考訳): 大規模言語モデル(LLM)アンラーニングは機械学習において重要なトピックとなり、モデルをスクラッチから再トレーニングすることなく、特定のトレーニングデータや知識の影響を排除することを目指している。
グラディエント・アセント(Gradient Ascent)、モデル編集、隠れた表現の再操作など、さまざまなテクニックが提案されている。
既存の調査では、これらの手法を技術的な特性で整理することが多いが、そのような分類は、非学習の根底にある意図である、内的知識を真に排除するか、単に行動的効果を抑えるかという、より基本的な側面を無視する傾向にある。
本稿では,この意図的視点に基づく新しい分類法を提案する。
この分類に基づいて、我々は3つの重要な貢献をしている。
まず, 多くの除去法が機能的に抑制のように振る舞うことを示唆する最近の知見を再考し, 真の除去が必須か, 達成可能かを検討する。
第2に、既存の評価戦略を調査し、現在のメトリクスとベンチマークの限界を特定し、より信頼性と意図に整合した評価を開発するための方向性を提案する。
第3に、スケーラビリティやシーケンシャルなアンラーニングのサポートなど、実践的な課題を強調します。
要約すると、この研究は、生成的AIにおけるアンラーニングを理解するための包括的なフレームワークを提供し、将来の研究を支援し、データ削除とプライバシに関するポリシー決定をガイドすることを目的としている。
関連論文リスト
- Does Machine Unlearning Truly Remove Model Knowledge? A Framework for Auditing Unlearning in LLMs [58.24692529185971]
本研究では,3つのベンチマークデータセット,6つのアンラーニングアルゴリズム,および5つのプロンプトベースの監査手法からなる,アンラーニング評価のための総合的な監査フレームワークを提案する。
異なるアンラーニング戦略の有効性とロバスト性を評価する。
論文 参考訳(メタデータ) (2025-05-29T09:19:07Z) - Are We Truly Forgetting? A Critical Re-examination of Machine Unlearning Evaluation Protocols [14.961054239793356]
本稿では,下流のタスククラスと意味的類似性を示すクラスを忘れる,厳密なアンラーニング評価手法を提案する。
われわれのベンチマークは、現実的な条件下での未学習アルゴリズム評価のための標準化されたプロトコルとして機能することを願っている。
論文 参考訳(メタデータ) (2025-03-10T07:11:34Z) - A Comprehensive Survey of Machine Unlearning Techniques for Large Language Models [35.893819613585315]
本研究では,大規模言語モデル(LLM)の文脈における機械学習手法について検討する。
LLMのアンラーニングは、LLMから望ましくないデータの影響を取り除くための原則的なアプローチを提供する。
研究の関心が高まりつつあるにもかかわらず、既存の研究を体系的に整理し、重要な洞察を蒸留する総合的な調査は行われていない。
論文 参考訳(メタデータ) (2025-02-22T12:46:14Z) - RESTOR: Knowledge Recovery in Machine Unlearning [71.75834077528305]
Webスケールコーパスでトレーニングされた大規模な言語モデルは、プライベートまたはセンシティブな情報を含むことができる。
このようなデータポイントの効果を排除するために、いくつかの機械学習アルゴリズムが提案されている。
機械学習評価のためのRESTORフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T20:54:35Z) - Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [52.03511469562013]
3つのコアコンポーネントで構成されるICU(Iterative Contrastive Unlearning)フレームワークを紹介する。
知識未学習誘導モジュールは、未学習の損失を使用して、特定の知識を除去するためにターゲットとする。
Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を保持する。
イテレーティブ・アンラーニング・リファインメントモジュールは、進行中の評価と更新を通じて、アンラーニングプロセスを動的に調整する。
論文 参考訳(メタデータ) (2024-07-25T07:09:35Z) - Machine Unlearning for Traditional Models and Large Language Models: A Short Survey [11.539080008361662]
機械学習は、データを削除し、ユーザーの要求に応じてモデルへの影響を減らすことを目的としている。
本稿では,従来のモデルとLarge Language Models(LLMs)の両方の非学習を分類し,検討する。
論文 参考訳(メタデータ) (2024-04-01T16:08:18Z) - Vertical Machine Unlearning: Selectively Removing Sensitive Information
From Latent Feature Space [21.8933559159369]
遅延特徴空間から機密情報のみを除去することを目的とした縦型アンラーニングモードについて検討する。
我々はこの非学習について直観的かつ形式的な定義を導入し、既存の水平的非学習との関係を示す。
厳密な理論的解析により上界の近似を推定する。
論文 参考訳(メタデータ) (2022-02-27T05:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。