論文の概要: Does Machine Unlearning Truly Remove Model Knowledge? A Framework for Auditing Unlearning in LLMs
- arxiv url: http://arxiv.org/abs/2505.23270v1
- Date: Thu, 29 May 2025 09:19:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.782394
- Title: Does Machine Unlearning Truly Remove Model Knowledge? A Framework for Auditing Unlearning in LLMs
- Title(参考訳): 機械学習はモデル知識を完全に取り除くか? : LLMにおける未学習を監査するためのフレームワーク
- Authors: Haokun Chen, Yueqi Zhang, Yuan Bi, Yao Zhang, Tong Liu, Jinhe Bi, Jian Lan, Jindong Gu, Claudia Grosser, Denis Krompass, Nassir Navab, Volker Tresp,
- Abstract要約: 本研究では,3つのベンチマークデータセット,6つのアンラーニングアルゴリズム,および5つのプロンプトベースの監査手法からなる,アンラーニング評価のための総合的な監査フレームワークを提案する。
異なるアンラーニング戦略の有効性とロバスト性を評価する。
- 参考スコア(独自算出の注目度): 58.24692529185971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Large Language Models (LLMs) have achieved remarkable advancements, drawing significant attention from the research community. Their capabilities are largely attributed to large-scale architectures, which require extensive training on massive datasets. However, such datasets often contain sensitive or copyrighted content sourced from the public internet, raising concerns about data privacy and ownership. Regulatory frameworks, such as the General Data Protection Regulation (GDPR), grant individuals the right to request the removal of such sensitive information. This has motivated the development of machine unlearning algorithms that aim to remove specific knowledge from models without the need for costly retraining. Despite these advancements, evaluating the efficacy of unlearning algorithms remains a challenge due to the inherent complexity and generative nature of LLMs. In this work, we introduce a comprehensive auditing framework for unlearning evaluation, comprising three benchmark datasets, six unlearning algorithms, and five prompt-based auditing methods. By using various auditing algorithms, we evaluate the effectiveness and robustness of different unlearning strategies. To explore alternatives beyond prompt-based auditing, we propose a novel technique that leverages intermediate activation perturbations, addressing the limitations of auditing methods that rely solely on model inputs and outputs.
- Abstract(参考訳): 近年、Large Language Models (LLM) は目覚ましい進歩を遂げ、研究コミュニティから大きな注目を集めている。
その能力は主に大規模なアーキテクチャによるもので、大規模なデータセットの広範なトレーニングを必要とする。
しかしながら、そのようなデータセットは、しばしば公共のインターネットから得られた機密または著作権のあるコンテンツを含み、データのプライバシと所有権に関する懸念を提起する。
GDPR(General Data Protection Regulation)のような規制フレームワークは、個人にそのような機密情報の削除を要求する権利を与える。
これは、コストのかかる再トレーニングを必要とせずに、モデルから特定の知識を取り除くことを目的とした、機械学習アルゴリズムの開発を動機付けている。
これらの進歩にもかかわらず、未学習アルゴリズムの有効性を評価することは、LLMの本質的な複雑さと生成性のために依然として課題である。
本研究では,3つのベンチマークデータセット,6つのアンラーニングアルゴリズム,および5つのプロンプトベースの監査手法からなる,アンラーニング評価のための総合的な監査フレームワークを提案する。
様々な監査アルゴリズムを用いて、異なる未学習戦略の有効性とロバスト性を評価する。
そこで本研究では, モデル入力と出力のみに依存する監査手法の限界に対処するため, 中間活性化摂動を利用した新しい手法を提案する。
関連論文リスト
- RESTOR: Knowledge Recovery in Machine Unlearning [71.75834077528305]
Webスケールコーパスでトレーニングされた大規模な言語モデルは、プライベートまたはセンシティブな情報を含むことができる。
このようなデータポイントの効果を排除するために、いくつかの機械学習アルゴリズムが提案されている。
機械学習評価のためのRESTORフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T20:54:35Z) - Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [52.03511469562013]
3つのコアコンポーネントで構成されるICU(Iterative Contrastive Unlearning)フレームワークを紹介する。
知識未学習誘導モジュールは、未学習の損失を使用して、特定の知識を除去するためにターゲットとする。
Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を保持する。
イテレーティブ・アンラーニング・リファインメントモジュールは、進行中の評価と更新を通じて、アンラーニングプロセスを動的に調整する。
論文 参考訳(メタデータ) (2024-07-25T07:09:35Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Towards Lifecycle Unlearning Commitment Management: Measuring Sample-level Approximate Unlearning Completeness [30.596695293390415]
本稿では, ライフサイクル・アンラーニング・コミットメント・マネジメント(LUCM)の課題について紹介する。
サンプルレベルの未学習完全性を評価するための効率的な指標を提案する。
このメトリクスは、未学習ライフサイクル全体を通して、未学習の異常を監視するツールとして機能することを示す。
論文 参考訳(メタデータ) (2024-03-19T15:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。