論文の概要: Distributional Unlearning: Forgetting Distributions, Not Just Samples
- arxiv url: http://arxiv.org/abs/2507.15112v2
- Date: Tue, 29 Jul 2025 18:47:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 14:05:51.367253
- Title: Distributional Unlearning: Forgetting Distributions, Not Just Samples
- Title(参考訳): 分散アンラーニング: 単なるサンプルではなく、分散を忘れる
- Authors: Youssef Allouah, Rachid Guerraoui, Sanmi Koyejo,
- Abstract要約: 機械学習は、トレーニングされたモデルから望ましくない情報を、最初は個々のサンプルレベルで取り除こうとするが、サブ人口全体のレベルはますます高まっている。
既存の学習ツールはほとんどがサンプル指向であり、単純なポイント削除はしばしば、下流の学習者が望ましくない領域を回復するのに十分な残差信号を残している。
データ中心のモデルに依存しないフレームワークである分散アンラーニングを紹介します。 不要な分布と保持された分布から例を挙げると、削除されたデータセットを不要な領域からはるかに近いものにする、最小のポイントセットは何ですか?
- 参考スコア(独自算出の注目度): 18.440064196982345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine unlearning seeks to remove unwanted information from trained models, initially at the individual-sample level, but increasingly at the level of entire sub-populations. In many deployments, models must delete whole topical domains to satisfy privacy, legal, or quality requirements, e.g., removing several users' posts under GDPR or copyrighted web content. Existing unlearning tools remain largely sample-oriented, and straightforward point deletion often leaves enough residual signal for downstream learners to recover the unwanted domain. We introduce distributional unlearning, a data-centric, model-agnostic framework that asks: Given examples from an unwanted distribution and a retained distribution, what is the smallest set of points whose removal makes the edited dataset far from the unwanted domain yet close to the retained one? Using Kullback-Leibler divergence to quantify removal and preservation, we derive the exact Pareto frontier in the Gaussian case and prove that any model retrained on the edited data incurs log-loss shifts bounded by the divergence thresholds. We propose a simple distance-based selection rule satisfying these constraints with a quadratic reduction in deletion budget compared to random removal. Experiments on synthetic Gaussians, Jigsaw Toxic Comments, SMS spam, and CIFAR-10 show 15-72% fewer deletions than random, with negligible impact on retained performance.
- Abstract(参考訳): 機械学習は、トレーニングされたモデルから望ましくない情報を、最初は個々のサンプルレベルで取り除こうとするが、サブ人口全体のレベルはますます高まっている。
多くのデプロイメントでは、プライバシ、法的、品質要件を満たすために、モデルがトピックのドメイン全体を削除しなければなりません。
既存の学習ツールはほとんどがサンプル指向であり、単純なポイント削除はしばしば、下流の学習者が望ましくない領域を回復するのに十分な残差信号を残している。
データ中心のモデルに依存しないフレームワークである分散アンラーニングを紹介します。 不要な分布と保持された分布から例を挙げると、削除されたデータセットを不要な領域からはるかに近いものにする、最小のポイントセットは何ですか?
Kullback-Leibler分散を用いて除去と保存の定量化を行い、ガウスの場合の正確なパレートフロンティアを導出し、編集されたデータに再トレーニングされたモデルが、分岐閾値で有界なログロスシフトを引き起こすことを証明した。
本稿では,これらの制約を満たす簡易な距離ベース選択規則を提案する。
合成ガウス、Jigsaw Toxic Comments、SMSスパム、CIFAR-10の実験では、ランダムよりも削除が15~72%少なく、維持パフォーマンスに無視できる影響がある。
関連論文リスト
- UPCORE: Utility-Preserving Coreset Selection for Balanced Unlearning [57.081646768835704]
ユーザ仕様や法的フレームワークは、しばしば、大きな言語モデル(LLM)を含む、事前訓練されたモデルから削除される情報を必要とする。
これは、既に訓練済みのモデルからデータポイントのセットを削除または"偽造"する必要がある。
本研究では,非学習時の副次的損傷を軽減するための手法に依存しないデータ選択フレームワークUPCOREを提案する。
論文 参考訳(メタデータ) (2025-02-20T22:51:10Z) - FUNU: Boosting Machine Unlearning Efficiency by Filtering Unnecessary Unlearning [9.472692023087223]
本研究では不必要な未学習につながるデータポイントを同定するFUNUを提案する。
FUNUの理論的解析を行い,その有効性を検証するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2025-01-28T01:19:07Z) - Learning to Unlearn: Instance-wise Unlearning for Pre-trained
Classifiers [71.70205894168039]
そこでは、事前訓練されたモデルからインスタンスのセットに関する情報を削除することを目標としています。
本稿では,1)表現レベルでの忘れを克服するために,敵の例を活用すること,2)不必要な情報を伝播するネットワークパラメータをピンポイントする重み付け指標を活用すること,の2つの方法を提案する。
論文 参考訳(メタデータ) (2023-01-27T07:53:50Z) - Learning When to Say "I Don't Know" [0.5505634045241288]
本稿では,決定空間における不確実性領域を識別・除去するリジェクトオプション分類手法を提案する。
そこで我々は,相補的拒絶領域を解析し,クラスごとのソフトマックス閾値を学習するための検証セットを用いることにより,代替的な定式化を検討する。
提案手法の利点を,2次元点,画像,テキスト分類データセットを用いて評価した。
論文 参考訳(メタデータ) (2022-09-11T21:50:03Z) - Online Selective Classification with Limited Feedback [82.68009460301585]
オンライン学習モデルにおいて、予測者がインスタンスの分類を控える可能性のある選択的分類について検討する。
私たちが考慮している設定の健全な2つの側面は、データが不可避である可能性があるため、データは不可避である可能性があるということです。
smash$tildeO(T1-mu)$ over abstention against Adaptive adversaries. smash$tildeO(T1-mu)$ incurring smash$tildeO(T1-mu)$ over abstention。
論文 参考訳(メタデータ) (2021-10-27T08:00:53Z) - Unrolling Particles: Unsupervised Learning of Sampling Distributions [102.72972137287728]
粒子フィルタリングは複素系の優れた非線形推定を計算するために用いられる。
粒子フィルタは様々なシナリオにおいて良好な推定値が得られることを示す。
論文 参考訳(メタデータ) (2021-10-06T16:58:34Z) - Compressive Summarization with Plausibility and Salience Modeling [54.37665950633147]
本稿では,候補空間に対する厳密な構文的制約を緩和し,その代わりに圧縮決定を2つのデータ駆動基準,すなわち妥当性とサリエンスに委ねることを提案する。
提案手法は,ベンチマーク要約データセット上で強いドメイン内結果を得るとともに,人間による評価により,文法的および事実的削除に対して,可算性モデルが一般的に選択されることを示す。
論文 参考訳(メタデータ) (2020-10-15T17:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。