論文の概要: The Utility and Complexity of in- and out-of-Distribution Machine Unlearning
- arxiv url: http://arxiv.org/abs/2412.09119v2
- Date: Wed, 12 Feb 2025 09:38:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:46:12.979841
- Title: The Utility and Complexity of in- and out-of-Distribution Machine Unlearning
- Title(参考訳): イン・オブ・アウト・オブ・ディストリビューション・マシン・アンラーニングの有用性と複雑さ
- Authors: Youssef Allouah, Joshua Kazdan, Rachid Guerraoui, Sanmi Koyejo,
- Abstract要約: 我々は、近似アンラーニングの基本的な有用性、時間、空間複雑さのトレードオフを分析する。
実用性を損なうことなく、学習時間の複雑さを確実に改善する、頑健でノイズの多い勾配降下変種を提案する。
- 参考スコア(独自算出の注目度): 16.879887267565742
- License:
- Abstract: Machine unlearning, the process of selectively removing data from trained models, is increasingly crucial for addressing privacy concerns and knowledge gaps post-deployment. Despite this importance, existing approaches are often heuristic and lack formal guarantees. In this paper, we analyze the fundamental utility, time, and space complexity trade-offs of approximate unlearning, providing rigorous certification analogous to differential privacy. For in-distribution forget data -- data similar to the retain set -- we show that a surprisingly simple and general procedure, empirical risk minimization with output perturbation, achieves tight unlearning-utility-complexity trade-offs, addressing a previous theoretical gap on the separation from unlearning "for free" via differential privacy, which inherently facilitates the removal of such data. However, such techniques fail with out-of-distribution forget data -- data significantly different from the retain set -- where unlearning time complexity can exceed that of retraining, even for a single sample. To address this, we propose a new robust and noisy gradient descent variant that provably amortizes unlearning time complexity without compromising utility.
- Abstract(参考訳): トレーニングされたモデルからデータを選択的に削除するプロセスである機械学習は、プライバシの懸念やデプロイ後の知識ギャップに対処するためにますます重要になっている。
このような重要性にもかかわらず、既存のアプローチはしばしばヒューリスティックであり、正式な保証がない。
本稿では、近似アンラーニングの基本的な有用性、時間、空間複雑さのトレードオフを分析し、差分プライバシーに類似した厳密な認証を提供する。
In-distriion forget data -- 保持セットに類似したデータ -- は、驚くほど単純で一般的な手順である、アウトプットの摂動による経験的リスク最小化、厳密な未学習ユーティリティと複雑さのトレードオフを実現し、差分プライバシーによる未学習から"無料"への分離に関するこれまでの理論的ギャップに対処することを示します。
しかしながら、そのようなテクニックは、データのアウト・オブ・ディストリビューション(out-of-distriion)を忘れること -- 保持セットと大きく異なるデータ -- で失敗する。
そこで本研究では,非学習時間の複雑さを,実用性を損なうことなく確実に改善する,頑健でノイズの多い勾配勾配変種を提案する。
関連論文リスト
- Adversarial Mixup Unlearning [16.89710766008491]
合成ミキサアップサンプルを利用して、未学習プロセスの正規化を行う新しい手法を提案する。
私たちのアプローチの核心は、ジェネレータアンリアナーフレームワークであるMixUnlearnです。
本手法は最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-02-14T16:50:33Z) - Machine Unlearning via Information Theoretic Regularization [3.05179671246628]
本稿では,情報理論の正規化に基づく数学的枠組みを導入し,特徴とデータポイントのアンラーニングに対処する。
学習対象の柔軟性と正規化設計の単純さを組み合わせることで、我々のアプローチは、幅広い機械学習やAIアプリケーションに対して、高度に適応可能で実践的です。
論文 参考訳(メタデータ) (2025-02-08T20:33:06Z) - Distribution-Level Feature Distancing for Machine Unlearning: Towards a Better Trade-off Between Model Utility and Forgetting [4.220336689294245]
本稿では,タスク関連特徴相関を保ちつつ,効率的にインスタンスを破棄する新しい手法である分散レベル特徴分散(DLFD)を提案する。
提案手法は, 特徴分布を忘れ試料と明確に異なるように最適化し, 単一の学習エポック内で有効結果を得る。
論文 参考訳(メタデータ) (2024-09-23T06:51:10Z) - Accelerated Stochastic ExtraGradient: Mixing Hessian and Gradient Similarity to Reduce Communication in Distributed and Federated Learning [50.382793324572845]
分散コンピューティングはデバイス間の通信を伴うため、効率性とプライバシという2つの重要な問題を解決する必要がある。
本稿では,データ類似性とクライアントサンプリングのアイデアを取り入れた新しい手法について分析する。
プライバシー問題に対処するために,付加雑音の手法を適用し,提案手法の収束への影響を解析する。
論文 参考訳(メタデータ) (2024-09-22T00:49:10Z) - Dataset Condensation Driven Machine Unlearning [0.0]
データ規制要件とプライバシ保護機械学習の現在のトレンドは、機械学習の重要性を強調している。
我々は,機械学習のプライバシ,ユーティリティ,効率のバランスをとるために,新しいデータセット凝縮手法と革新的なアンラーニング手法を提案する。
本稿では,機械のアンラーニングを計測するための新しい効果的なアプローチを提案し,その適用方法として,メンバシップ推論とモデル逆転攻撃の防御を提案する。
論文 参考訳(メタデータ) (2024-01-31T21:48:25Z) - Heterogeneous Target Speech Separation [52.05046029743995]
我々は,非相互排他的概念を用いて興味のあるソースを区別できる単一チャネルターゲットソース分離のための新しいパラダイムを提案する。
提案する異種分離フレームワークは,分散シフトが大きいデータセットをシームレスに利用することができる。
論文 参考訳(メタデータ) (2022-04-07T17:14:20Z) - Non-IID data and Continual Learning processes in Federated Learning: A
long road ahead [58.720142291102135]
フェデレートラーニング(Federated Learning)は、複数のデバイスや機関が、データをプライベートに保存しながら、機械学習モデルを協調的にトレーニングすることを可能にする、新しいフレームワークである。
本研究では,データの統計的不均一性を正式に分類し,それに直面することのできる最も顕著な学習戦略をレビューする。
同時に、継続学習のような他の機械学習フレームワークからのアプローチを導入し、データの不均一性にも対処し、フェデレートラーニング設定に容易に適応できるようにします。
論文 参考訳(メタデータ) (2021-11-26T09:57:11Z) - On Covariate Shift of Latent Confounders in Imitation and Reinforcement
Learning [69.48387059607387]
模擬・強化学習において,未観測の共同設立者と専門家データを併用することの問題点を考察する。
我々は、外部報酬を伴わずに、確立した専門家データから学ぶことの限界を分析する。
我々は,支援医療とレコメンデーションシステムシミュレーションの課題に挑戦する上で,我々の主張を実証的に検証する。
論文 参考訳(メタデータ) (2021-10-13T07:31:31Z) - Contrastive learning of strong-mixing continuous-time stochastic
processes [53.82893653745542]
コントラスト学習(Contrastive Learning)は、ラベルのないデータから構築された分類タスクを解決するためにモデルを訓練する自己指導型の手法のファミリーである。
拡散の場合,小~中距離間隔の遷移カーネルを適切に構築したコントラスト学習タスクを用いて推定できることが示される。
論文 参考訳(メタデータ) (2021-03-03T23:06:47Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。