論文の概要: Data Selection for Transfer Unlearning
- arxiv url: http://arxiv.org/abs/2405.10425v1
- Date: Thu, 16 May 2024 20:09:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 17:33:08.623952
- Title: Data Selection for Transfer Unlearning
- Title(参考訳): トランスファーアンラーニングのためのデータ選択
- Authors: Nazanin Mohammadi Sepahvand, Vincent Dumoulin, Eleni Triantafillou, Gintare Karolina Dziugaite,
- Abstract要約: 我々は、プライバシーアプリケーションに対処しない、リラックスした未学習の定義を提唱する。
補助的な「静的」データセットから関連事例を選択するためのメカニズムを用いた新しい手法を提案する。
提案手法は,複数のデータセットにおいて,ゴールド標準の「エクササイズ・アンラーニング」よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 14.967546081883034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As deep learning models are becoming larger and data-hungrier, there are growing ethical, legal and technical concerns over use of data: in practice, agreements on data use may change over time, rendering previously-used training data impermissible for training purposes. These issues have driven increased attention to machine unlearning: removing "the influence of" a subset of training data from a trained model. In this work, we advocate for a relaxed definition of unlearning that does not address privacy applications but targets a scenario where a data owner withdraws permission of use of their data for training purposes. In this context, we consider the important problem of \emph{transfer unlearning} where a pretrained model is transferred to a target dataset that contains some "non-static" data that may need to be unlearned in the future. We propose a new method that uses a mechanism for selecting relevant examples from an auxiliary "static" dataset, and finetunes on the selected data instead of "non-static" target data; addressing all unlearning requests ahead of time. We also adapt a recent relaxed definition of unlearning to our problem setting and demonstrate that our approach is an exact transfer unlearner according to it, while being highly efficient (amortized). We find that our method outperforms the gold standard "exact unlearning" (finetuning on only the "static" portion of the target dataset) on several datasets, especially for small "static" sets, sometimes approaching an upper bound for test accuracy. We also analyze factors influencing the accuracy boost obtained by data selection.
- Abstract(参考訳): ディープラーニングモデルがより大きくなり、データの利用に関する倫理的、法的、技術的懸念が高まっている。
これらの問題は、トレーニングされたモデルからトレーニングデータのサブセット"影響"を取り除くという、機械学習の非学習への注意を高めた。
本研究では、プライバシアプリケーションに対処せず、データ所有者がトレーニング目的でデータの使用許可を取り下げるシナリオをターゲットにした、非学習の緩やかな定義を提唱する。
この文脈では、事前訓練されたモデルが、将来未学習となる可能性のある「非静的」データを含むターゲットデータセットに転送されるという、emph{transfer unlearning}の重要な問題を考える。
本稿では、補助的な"静的"データセットから関連するサンプルを選択するメカニズムと、"静的"ターゲットデータではなく、選択したデータに微調整を施す手法を提案する。
我々はまた、最近緩やかなアンラーニングの定義を問題設定に適用し、我々のアプローチが、それに従って正確なトランスファーアンラーナーであると同時に、非常に効率的な(調整された)ことを示しています。
提案手法は,いくつかのデータセット,特に小さな"静的"データセットにおいて,ゴールドスタンダードの"exact unlearning"(ターゲットデータセットの"static"部分のみを微調整)よりも優れており,テスト精度の上限に近づくことがある。
また,データ選択によって得られた精度向上に影響を及ぼす要因も分析した。
関連論文リスト
- Corrective Machine Unlearning [22.342035149807923]
我々は、未知の操作が学習モデルに与える影響を緩和する問題として、矯正機械学習を定式化する。
削除セットを使わずにスクラッチから再学習するなど、既存の未学習手法の多くは、有効な修正未学習のために、操作されたデータの大部分を識別する必要がある。
選択的シナプス減衰法(Selective Synaptic Dampening)は, 操作したサンプルのごく一部で, 有害な効果を学習することなく, 限られた成功を達成している。
論文 参考訳(メタデータ) (2024-02-21T18:54:37Z) - Unlearning Traces the Influential Training Data of Language Models [31.33791825286853]
アンラーニングは、トレーニングデータセットがモデルの性能に与える影響をトレースする。
よりスケーラブルなアプローチであるUnTrac-Invを提案し、テストデータセットを解放し、トレーニングデータセットの未学習モデルを評価する。
論文 参考訳(メタデータ) (2024-01-26T23:17:31Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - CovarNav: Machine Unlearning via Model Inversion and Covariance
Navigation [11.222501077070765]
機械学習は、訓練されたモデルに対する特定のトレーニングデータポイントの影響を選択的に除去する重要なテクニックとして登場した。
我々は,このことを忘れないように,CovarNavという3段階のプロセスを導入する。
CIFAR-10とVggface2データセット上でCovarNavを厳格に評価する。
論文 参考訳(メタデータ) (2023-11-21T21:19:59Z) - Learning to Unlearn: Instance-wise Unlearning for Pre-trained
Classifiers [71.70205894168039]
そこでは、事前訓練されたモデルからインスタンスのセットに関する情報を削除することを目標としています。
本稿では,1)表現レベルでの忘れを克服するために,敵の例を活用すること,2)不必要な情報を伝播するネットワークパラメータをピンポイントする重み付け指標を活用すること,の2つの方法を提案する。
論文 参考訳(メタデータ) (2023-01-27T07:53:50Z) - Transferable Unlearnable Examples [63.64357484690254]
第三者が許可なくデータのトレーニングを行うのを防ぐために、学べない戦略が導入された。
公開前にユーザーのデータに摂動を追加することで、公開データセットでトレーニングされたモデルを無効にすることを目指している。
本稿では、学習不可能な効果を他のトレーニング設定やデータセットに伝達することを目的とした、クラスワイズ・セパビリティ・ディミナント(CSD)に基づく新しい学習不可能な戦略を提案する。
論文 参考訳(メタデータ) (2022-10-18T19:23:52Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Few-Shot Unlearning by Model Inversion [3.486204232859346]
機械学習の課題は、対象のデータセットを消去することであり、不要な振る舞いを引き起こす。
モデルからトレーニングデータを抽出し,対象サンプルと類似したサンプルをフィルタリングし,再学習する新しいモデルインバージョン手法を考案した。
対象データのサブセットのみを用いた手法は,対象データの完全な表示で最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-31T06:57:56Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。