論文の概要: What makes unlearning hard and what to do about it
- arxiv url: http://arxiv.org/abs/2406.01257v2
- Date: Wed, 30 Oct 2024 22:34:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 16:57:02.845282
- Title: What makes unlearning hard and what to do about it
- Title(参考訳): アンラーニングの難しさとそれについて何をすべきか
- Authors: Kairan Zhao, Meghdad Kurmanji, George-Octavian Bărbulescu, Eleni Triantafillou, Peter Triantafillou,
- Abstract要約: 未学習の難易度と未学習アルゴリズムの性能に影響を及ぼす2つの要因を同定する。
筆者らは,Refined-Unlearning Meta-algorithm (RUM) というフレームワークを開発した。そのフレームワークは, (i) 異なる特徴により, 忘れセットを均質化されたサブセットに精製し, (ii) 既存のアルゴリズムを用いて各サブセットを学習し,最後に、全体的な忘れセットを学習したモデルを提供するメタアルゴリズムである。
- 参考スコア(独自算出の注目度): 3.2140380913122195
- License:
- Abstract: Machine unlearning is the problem of removing the effect of a subset of training data (the ''forget set'') from a trained model without damaging the model's utility e.g. to comply with users' requests to delete their data, or remove mislabeled, poisoned or otherwise problematic data. With unlearning research still being at its infancy, many fundamental open questions exist: Are there interpretable characteristics of forget sets that substantially affect the difficulty of the problem? How do these characteristics affect different state-of-the-art algorithms? With this paper, we present the first investigation aiming to answer these questions. We identify two key factors affecting unlearning difficulty and the performance of unlearning algorithms. Evaluation on forget sets that isolate these identified factors reveals previously-unknown behaviours of state-of-the-art algorithms that don't materialize on random forget sets. Based on our insights, we develop a framework coined Refined-Unlearning Meta-algorithm (RUM) that encompasses: (i) refining the forget set into homogenized subsets, according to different characteristics; and (ii) a meta-algorithm that employs existing algorithms to unlearn each subset and finally delivers a model that has unlearned the overall forget set. We find that RUM substantially improves top-performing unlearning algorithms. Overall, we view our work as an important step in (i) deepening our scientific understanding of unlearning and (ii) revealing new pathways to improving the state-of-the-art.
- Abstract(参考訳): 機械学習は、トレーニングされたモデルからトレーニングデータのサブセット('forget set'')の影響を取り除く問題であり、モデルのユーティリティegを損なうことなく、ユーザのデータ削除要求に応じたり、不正なラベル付き、有毒、その他の問題のあるデータを削除したりする。
未学習の研究はまだ初期段階であり、多くの基本的なオープンな疑問が存在する: 問題の難しさに大きく影響する、忘れられた集合の解釈可能な特性は存在するか?
これらの特徴は、異なる最先端アルゴリズムにどのように影響しますか?
本稿では,これらの疑問に答えることを目的とした最初の調査について述べる。
未学習の難易度と未学習アルゴリズムの性能に影響を及ぼす2つの要因を同定する。
これらの識別された要因を分離する左折集合の評価は、ランダムな左折集合を具現化しない最先端アルゴリズムの既知動作を明らかにする。
我々の洞察に基づき、我々はRefined-Unlearning Meta-algorithm(RUM)というフレームワークを開発した。
一 異なる特徴により、左折集合を同質化された部分集合に精製すること。
(ii) 既存のアルゴリズムを用いて各サブセットを解放し、最終的に全体の左折集合を解放したモデルを提供するメタアルゴリズム。
RUMは、トップパフォーマンスの未学習アルゴリズムを大幅に改善する。
全体として、私たちの仕事は重要なステップだと考えています。
一 未学習の科学的理解を深めること
(II)最先端化に向けた新たな道筋を明らかにすること。
関連論文リスト
- RESTOR: Knowledge Recovery through Machine Unlearning [71.75834077528305]
Webスケールコーパスでトレーニングされた大規模な言語モデルは、望ましくないデータポイントを記憶することができる。
訓練されたモデルからこれらのデータポイントを「消去」することを目的とした、多くの機械学習手法が提案されている。
以下に示す次元に基づいて,機械学習のためのRESTORフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T20:54:35Z) - Machine Unlearning in Forgettability Sequence [22.497699136603877]
未学習の難易度と未学習アルゴリズムの性能に影響を及ぼす要因を同定する。
本稿では,RankingモジュールとSeqUnlearnモジュールからなる一般の未学習フレームワーク RSU を提案する。
論文 参考訳(メタデータ) (2024-10-09T01:12:07Z) - MUSE: Machine Unlearning Six-Way Evaluation for Language Models [109.76505405962783]
言語モデル(LM)は、プライベートおよび著作権のあるコンテンツを含む大量のテキストデータに基づいて訓練される。
総合的な機械学習評価ベンチマークであるMUSEを提案する。
人気のある8つのアンラーニングアルゴリズムがハリー・ポッターの本やニュース記事をいかに効果的に解き放つかをベンチマークする。
論文 参考訳(メタデータ) (2024-07-08T23:47:29Z) - Challenging Forgets: Unveiling the Worst-Case Forget Sets in Machine Unlearning [9.998859702421417]
マシン・アンラーニング(MU)は、選択したデータポイントがモデルの性能に与える影響を排除することを目的としている。
データ影響消去のための様々なMU手法にもかかわらず、評価は主にランダムなデータの忘れ方に焦点を当てている。
本稿では,影響消去の最も重要な課題を示すデータサブセットの同定を提案する。
論文 参考訳(メタデータ) (2024-03-12T06:50:32Z) - TOFU: A Task of Fictitious Unlearning for LLMs [99.92305790945507]
Webからの大量のコーパスに基づいてトレーニングされた大規模な言語モデルは、法的および倫理的懸念を提起する機密データやプライベートデータを再現することができる。
トレーニングデータに存在する情報を忘れるためにモデルをチューニングするアンラーニングは、トレーニング後のプライベートデータを保護する手段を提供する。
未学習の理解を深めるためのベンチマークであるTOFUを紹介する。
論文 参考訳(メタデータ) (2024-01-11T18:57:12Z) - Evaluating Inexact Unlearning Requires Revisiting Forgetting [14.199668091405064]
IC(Interclass Confusion)と呼ばれる,忘れ度を計測する新しいテストを導入する。
ブラックボックステストであるにもかかわらず、ICは削除セットからの情報がネットワークの初期層まで消去されたかどうかを調べることができる。
ネットワークの最終k層を破滅的に偽造する2つの単純なアンラーニング手法が、従来のアンラーニング方法と異なり、大きな削除セットにうまくスケールできることを実証的に示す。
論文 参考訳(メタデータ) (2022-01-17T21:49:21Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z) - When is Memorization of Irrelevant Training Data Necessary for
High-Accuracy Learning? [53.523017945443115]
我々は,十分な精度のトレーニングアルゴリズムが,予測モデルにおいて,そのトレーニング例の大規模サブセットに関する情報を本質的にすべてエンコードしなければならない自然予測問題を記述する。
私たちの結果は、トレーニングアルゴリズムや学習に使用されるモデルのクラスに依存しません。
論文 参考訳(メタデータ) (2020-12-11T15:25:14Z) - Learning Causal Models Online [103.87959747047158]
予測モデルは、予測を行うためにデータの急激な相関に依存することができる。
強い一般化を達成するための一つの解決策は、モデルに因果構造を組み込むことである。
本稿では,突発的特徴を継続的に検出・除去するオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-12T20:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。