論文の概要: UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI
- arxiv url: http://arxiv.org/abs/2407.00106v1
- Date: Thu, 27 Jun 2024 10:24:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 06:30:11.870843
- Title: UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI
- Title(参考訳): アンラーニング:アンラーニングは先進的生成AIにおけるコンテンツ規制に十分ではない
- Authors: Ilia Shumailov, Jamie Hayes, Eleni Triantafillou, Guillermo Ortiz-Jimenez, Nicolas Papernot, Matthew Jagielski, Itay Yona, Heidi Howard, Eugene Bagdasaryan,
- Abstract要約: 大規模言語モデル(LLM)におけるアンラーニングのパラダイムを再考する。
未学習の概念を導入し、未学習の知識を文脈内で再導入する。
我々は、不寛容な知識に対するコンテンツフィルタリングが不可欠であり、正確な未学習スキームでさえ、効果的なコンテンツ規制には不十分であると主張している。
- 参考スコア(独自算出の注目度): 50.61495097098296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exact unlearning was first introduced as a privacy mechanism that allowed a user to retract their data from machine learning models on request. Shortly after, inexact schemes were proposed to mitigate the impractical costs associated with exact unlearning. More recently unlearning is often discussed as an approach for removal of impermissible knowledge i.e. knowledge that the model should not possess such as unlicensed copyrighted, inaccurate, or malicious information. The promise is that if the model does not have a certain malicious capability, then it cannot be used for the associated malicious purpose. In this paper we revisit the paradigm in which unlearning is used for in Large Language Models (LLMs) and highlight an underlying inconsistency arising from in-context learning. Unlearning can be an effective control mechanism for the training phase, yet it does not prevent the model from performing an impermissible act during inference. We introduce a concept of ununlearning, where unlearned knowledge gets reintroduced in-context, effectively rendering the model capable of behaving as if it knows the forgotten knowledge. As a result, we argue that content filtering for impermissible knowledge will be required and even exact unlearning schemes are not enough for effective content regulation. We discuss feasibility of ununlearning for modern LLMs and examine broader implications.
- Abstract(参考訳): Exact Unlearningは、ユーザーが要求に応じて機械学習モデルからデータを抽出できるプライバシーメカニズムとして最初に導入された。
間もなく、正確な未学習に関連する非現実的なコストを軽減するために、不正確なスキームが提案された。
より最近のアンラーニングは、不寛容な知識を取り除くアプローチとしてしばしば議論され、すなわち、ライセンスされていない著作権、不正確な情報、悪意のある情報など、モデルが保持すべきでないという知識である。
モデルが特定の悪意のある機能を持っていなければ、関連する悪意のある目的には使用できない、というのが約束だ。
本稿では,Large Language Models(LLM)におけるアンラーニングのパラダイムを再考し,文脈内学習から生じる不整合性を明らかにする。
アンラーニングはトレーニングフェーズの効果的な制御メカニズムであり得るが、モデルが推論中に不寛容な行動を起こすのを防ぐことはできない。
非学習の概念を導入し、未学習の知識がコンテキスト内で再導入され、まるで忘れられた知識を知っているかのように振る舞うことができるモデルを効果的に表現する。
その結果、不寛容な知識に対するコンテンツフィルタリングは必要であり、正確な未学習スキームでさえ、効果的なコンテンツ規制には不十分である、と論じる。
本稿では,現代LLMにおける未学習の実現可能性について論じるとともに,より広範な意味について考察する。
関連論文リスト
- A Closer Look at Machine Unlearning for Large Language Models [46.245404272612795]
大型言語モデル(LLM)は機密または著作権のあるコンテンツを記憶し、プライバシーと法的懸念を高める。
LLMの機械学習におけるいくつかの問題について議論し、可能なアプローチについての洞察を提供する。
論文 参考訳(メタデータ) (2024-10-10T16:56:05Z) - Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [49.043599241803825]
Iterative Contrastive Unlearning (ICU)フレームワークは3つのコアコンポーネントで構成されている。
知識未学習誘導モジュールは、未学習の損失を通じて特定の知識を除去する。
Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を維持する。
また、特定のデータ片の未学習範囲を動的に評価し、反復的な更新を行う反復未学習リファインメントモジュールも用意されている。
論文 参考訳(メタデータ) (2024-07-25T07:09:35Z) - To Forget or Not? Towards Practical Knowledge Unlearning for Large Language Models [39.39428450239399]
大規模な言語モデル(LLM)は、個人プライバシー情報や著作権資料などの機密データを必然的に保持する。
知識未学習の最近の進歩は、特定の知識を消去するためにLLMパラメータを更新する。
未学習プロセスが必然的に本質的な知識を消去するかどうかを評価するために KnowUnDo を導入する。
論文 参考訳(メタデータ) (2024-07-02T03:34:16Z) - Textual Unlearning Gives a False Sense of Unlearning [12.792770622915906]
言語モデル(LM)は、大量のプライベートまたは著作権保護されたコンテンツを含むトレーニングデータを「記憶する」ことができる。
本研究では,学習前後のモデルにアクセスするだけで,学習者が未学習データに関する情報を推測できるテクスチュアル・アンラーニング・リーク・アタック(TULA)を提案する。
私たちの研究は、LMにおける機械学習の非学習が、逆により大きな知識リスクを生み出し、より安全な非学習メカニズムの開発を促すことを初めて明らかにしたものです。
論文 参考訳(メタデータ) (2024-06-19T08:51:54Z) - Rethinking Machine Unlearning for Large Language Models [85.92660644100582]
大規模言語モデル(LLM)の領域における機械学習の研究
このイニシアチブは、望ましくないデータの影響(機密情報や違法情報など)と関連するモデル機能を排除することを目的としている。
論文 参考訳(メタデータ) (2024-02-13T20:51:58Z) - TOFU: A Task of Fictitious Unlearning for LLMs [99.92305790945507]
Webからの大量のコーパスに基づいてトレーニングされた大規模な言語モデルは、法的および倫理的懸念を提起する機密データやプライベートデータを再現することができる。
トレーニングデータに存在する情報を忘れるためにモデルをチューニングするアンラーニングは、トレーニング後のプライベートデータを保護する手段を提供する。
未学習の理解を深めるためのベンチマークであるTOFUを紹介する。
論文 参考訳(メタデータ) (2024-01-11T18:57:12Z) - A Duty to Forget, a Right to be Assured? Exposing Vulnerabilities in Machine Unlearning Services [31.347825826778276]
機械学習(ML)における未学習サービスによる潜在的な脅威を探究する。
オーバー・アンラーニングを利用してトレードオフバランスに与える影響を計測する2つの戦略を提案する。
その結果,両戦略が未学習シナリオにおけるモデルの有効性を損なう可能性が示唆された。
論文 参考訳(メタデータ) (2023-09-15T08:00:45Z) - On the Necessity of Auditable Algorithmic Definitions for Machine
Unlearning [13.149070833843133]
機械学習、すなわち、トレーニングデータのいくつかを忘れるモデルを持つことは、プライバシー法が忘れられる権利の変種を促進するにつれ、ますます重要になっている。
まず、ほぼ未学習のモデルが正確に訓練されたモデルに近いことを証明しようとする、近似的未学習の定義は、異なるデータセットを用いて同じモデルを得ることができるため、正しくないことを示す。
そして、正確なアンラーニングアプローチに目を向け、アンラーニングのクレームの検証方法を尋ねます。
論文 参考訳(メタデータ) (2021-10-22T16:16:56Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。