論文の概要: Distribution-Level Feature Distancing for Machine Unlearning: Towards a Better Trade-off Between Model Utility and Forgetting
- arxiv url: http://arxiv.org/abs/2409.14747v4
- Date: Thu, 12 Dec 2024 16:17:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:29:53.588483
- Title: Distribution-Level Feature Distancing for Machine Unlearning: Towards a Better Trade-off Between Model Utility and Forgetting
- Title(参考訳): 機械学習のための分散レベル特徴分散:モデルユーティリティと予測のトレードオフの改善を目指して
- Authors: Dasol Choi, Dongbin Na,
- Abstract要約: 本稿では,タスク関連特徴相関を保ちつつ,効率的にインスタンスを破棄する新しい手法である分散レベル特徴分散(DLFD)を提案する。
提案手法は, 特徴分布を忘れ試料と明確に異なるように最適化し, 単一の学習エポック内で有効結果を得る。
- 参考スコア(独自算出の注目度): 4.220336689294245
- License:
- Abstract: With the explosive growth of deep learning applications and increasing privacy concerns, the right to be forgotten has become a critical requirement in various AI industries. For example, given a facial recognition system, some individuals may wish to remove their personal data that might have been used in the training phase. Unfortunately, deep neural networks sometimes unexpectedly leak personal identities, making this removal challenging. While recent machine unlearning algorithms aim to enable models to forget specific data, we identify an unintended utility drop-correlation collapse-in which the essential correlations between image features and true labels weaken during the forgetting process. To address this challenge, we propose Distribution-Level Feature Distancing (DLFD), a novel method that efficiently forgets instances while preserving task-relevant feature correlations. Our method synthesizes data samples by optimizing the feature distribution to be distinctly different from that of forget samples, achieving effective results within a single training epoch. Through extensive experiments on facial recognition datasets, we demonstrate that our approach significantly outperforms state-of-the-art machine unlearning methods in both forgetting performance and model utility preservation.
- Abstract(参考訳): ディープラーニングアプリケーションの爆発的な成長とプライバシー上の懸念の高まりにより、忘れられる権利は、さまざまなAI産業において重要な要件となっている。
例えば、顔認識システムを考えると、トレーニングフェーズで使われた可能性のある個人データを削除したいと考える人もいるかもしれない。
残念なことに、ディープ・ニューラル・ネットワークは時々予想外の個人情報を漏らし、この除去を困難にしている。
最近の機械学習アルゴリズムは、モデルを特定のデータを忘れることを目的としているが、画像特徴と真のラベルとの本質的な相関関係が忘れる過程で弱まる、意図しないユーティリティドロップ相関崩壊を識別する。
この課題に対処するために,タスク関連特徴相関を保ちつつ,効率的にインスタンスを破棄する新しい手法である分散レベル特徴分散(DLFD)を提案する。
提案手法は, 特徴分布を忘れ試料と明確に異なるように最適化し, 単一の学習エポック内で有効結果を得る。
顔認識データセットに関する広範な実験を通じて、我々のアプローチは、パフォーマンスとモデルユーティリティ保存の両方を忘れることにおいて、最先端の機械学習手法よりも大幅に優れていることを示した。
関連論文リスト
- Model Integrity when Unlearning with T2I Diffusion Models [11.321968363411145]
「忘れ分布からのサンプルを特徴とする特定種類の画像の生成を減らすために、近似機械学習アルゴリズムを提案する。」
次に、既存のベースラインと比較してモデルの整合性を保つ上で優れた効果を示す未学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-04T13:15:28Z) - Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - An Information Theoretic Approach to Machine Unlearning [45.600917449314444]
学びの鍵となる課題は、モデルのパフォーマンスを保ちながら、必要なデータをタイムリーに忘れることである。
この研究では、ゼロショットのアンラーニングシナリオに対処し、未学習のアルゴリズムは、トレーニングされたモデルと忘れられるデータだけが与えられたデータを削除できなければならない。
モデルの幾何に基づいて、単純だが原則化されたゼロショットアンラーニング法を導出する。
論文 参考訳(メタデータ) (2024-02-02T13:33:30Z) - Robust Machine Learning by Transforming and Augmenting Imperfect
Training Data [6.928276018602774]
この論文は、現代の機械学習のいくつかのデータ感度を探求する。
まず、トレーニングデータで測定された事前の人間の識別をMLが符号化するのを防ぐ方法について論じる。
次に、トレーニング中に予測忠実度を提供するが、デプロイ時に信頼性が低い突発的特徴を含むデータから学習する問題について論じる。
論文 参考訳(メタデータ) (2023-12-19T20:49:28Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Segue: Side-information Guided Generative Unlearnable Examples for
Facial Privacy Protection in Real World [64.4289385463226]
生成不可能な例としては、Segue: Side-information guided Generative unlearnable Exampleを提案する。
転送性を向上させるために,真のラベルや擬似ラベルなどの側面情報を導入する。
JPEG圧縮、敵対的トレーニング、およびいくつかの標準的なデータ拡張に抵抗することができる。
論文 参考訳(メタデータ) (2023-10-24T06:22:37Z) - Diffusion-Model-Assisted Supervised Learning of Generative Models for
Density Estimation [10.793646707711442]
本稿では,密度推定のための生成モデルを訓練するためのフレームワークを提案する。
スコアベース拡散モデルを用いてラベル付きデータを生成する。
ラベル付きデータが生成されると、シンプルな完全に接続されたニューラルネットワークをトレーニングして、教師付き方法で生成モデルを学ぶことができます。
論文 参考訳(メタデータ) (2023-10-22T23:56:19Z) - Generative Adversarial Networks Unlearning [13.342749941357152]
機械学習は、訓練された機械学習モデルからトレーニングデータを消去するソリューションとして登場した。
GAN(Generative Adversarial Networks)の研究は、ジェネレータと識別器を含む独自のアーキテクチャによって制限されている。
本稿では,GANモデルにおける項目学習とクラス学習の両方を対象としたケースドアンラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-19T02:21:21Z) - Learning to Jump: Thinning and Thickening Latent Counts for Generative
Modeling [69.60713300418467]
ジャンプの学習は、様々な種類のデータの生成モデリングのための一般的なレシピである。
ジャンプの学習が、デノゼの学習と相容れないパフォーマンスを期待される場合と、より良いパフォーマンスを期待される場合を実証する。
論文 参考訳(メタデータ) (2023-05-28T05:38:28Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。