論文の概要: Distributional Machine Unlearning via Selective Data Removal
- arxiv url: http://arxiv.org/abs/2507.15112v3
- Date: Wed, 08 Oct 2025 07:38:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 14:21:18.069144
- Title: Distributional Machine Unlearning via Selective Data Removal
- Title(参考訳): 選択的データ除去による分散マシンの非学習
- Authors: Youssef Allouah, Rachid Guerraoui, Sanmi Koyejo,
- Abstract要約: ドメインの統計的影響は、しばしばデータサンプルの小さなサブセットに集中している。
所望のディストリビューションを保存しながら、不要なディストリビューションを忘れるバランスをとる小さなサブセットを選択するためのフレームワークである。
- 参考スコア(独自算出の注目度): 37.205511534444966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning systems increasingly face requirements to remove entire domains of information -- such as toxic language or biases -- rather than individual user data. This task presents a dilemma: full removal of the unwanted domain data is computationally expensive, while random partial removal is statistically inefficient. We find that a domain's statistical influence is often concentrated in a small subset of its data samples, suggesting a path between ineffective partial removal and unnecessary complete removal. We formalize this as distributional unlearning: a framework to select a small subset that balances forgetting an unwanted distribution while preserving a desired one. Using Kullback-Leibler divergence constraints, we derive the exact removal-preservation Pareto frontier for exponential families and prove that models trained on the edited data achieve corresponding log-loss bounds. We propose a distance-based selection algorithm and show it is quadratically more sample-efficient than random removal in the challenging low-divergence regime. Experiments across synthetic, text, and image datasets (Jigsaw, CIFAR-10, SMS spam) show our method requires 15-82% less deletion than full removal for strong unlearning effects, e.g., halving initial forget set accuracy. Ultimately, by showing a small forget set often suffices, our framework lays the foundations for more scalable and rigorous subpopulation unlearning.
- Abstract(参考訳): マシンラーニングシステムは、個々のユーザデータではなく、有害な言語やバイアスといった情報領域全体を削除する要件に直面している。
不要領域データの完全削除は計算コストが高く、ランダム部分削除は統計的に非効率である。
ドメインの統計的影響は、しばしばデータサンプルの小さなサブセットに集中しており、非効率な部分的除去と不要な完全除去の間の経路を示唆している。
所望のディストリビューションを保存しながら、不要なディストリビューションを忘れるバランスをとる小さなサブセットを選択するためのフレームワークである。
Kullback-Leibler分散制約を用いることで、指数族に対する正確な除去保存パレートフロンティアを導出し、編集されたデータに基づいてトレーニングされたモデルが対応するログロス境界を達成することを示す。
距離に基づく選択アルゴリズムを提案し, 挑戦的な低発散状態において, ランダム除去よりも2次的にサンプリング効率が高いことを示す。
合成, テキスト, 画像データセット(Jigsaw, CIFAR-10, SMSスパム)による実験から, この手法では, 強い未学習効果の完全除去よりも15~82%の削除が必要であり, 初期忘れセットの精度を半減する。
究極的には、小さな忘れの集合がしばしば十分であることを示すことによって、我々のフレームワークは、よりスケーラブルで厳格なサブポピュレーションの未学習の基礎を築き上げています。
関連論文リスト
- AMUN: Adversarial Machine UNlearning [13.776549741449557]
Adversarial Machine UNlearning (AMUN)は、画像分類の最先端(SOTA)手法よりも優れている。
AMUNは、そのモデルに対応する敵の例を微調整することで、忘れサンプルのモデルの信頼性を低下させる。
論文 参考訳(メタデータ) (2025-03-02T14:36:31Z) - UPCORE: Utility-Preserving Coreset Selection for Balanced Unlearning [57.081646768835704]
ユーザ仕様や法的フレームワークは、しばしば、大きな言語モデル(LLM)を含む、事前訓練されたモデルから削除される情報を必要とする。
これは、既に訓練済みのモデルからデータポイントのセットを削除または"偽造"する必要がある。
本研究では,非学習時の副次的損傷を軽減するための手法に依存しないデータ選択フレームワークUPCOREを提案する。
論文 参考訳(メタデータ) (2025-02-20T22:51:10Z) - FUNU: Boosting Machine Unlearning Efficiency by Filtering Unnecessary Unlearning [9.472692023087223]
本研究では不必要な未学習につながるデータポイントを同定するFUNUを提案する。
FUNUの理論的解析を行い,その有効性を検証するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2025-01-28T01:19:07Z) - Learning to Unlearn: Instance-wise Unlearning for Pre-trained
Classifiers [71.70205894168039]
そこでは、事前訓練されたモデルからインスタンスのセットに関する情報を削除することを目標としています。
本稿では,1)表現レベルでの忘れを克服するために,敵の例を活用すること,2)不必要な情報を伝播するネットワークパラメータをピンポイントする重み付け指標を活用すること,の2つの方法を提案する。
論文 参考訳(メタデータ) (2023-01-27T07:53:50Z) - Learning When to Say "I Don't Know" [0.5505634045241288]
本稿では,決定空間における不確実性領域を識別・除去するリジェクトオプション分類手法を提案する。
そこで我々は,相補的拒絶領域を解析し,クラスごとのソフトマックス閾値を学習するための検証セットを用いることにより,代替的な定式化を検討する。
提案手法の利点を,2次元点,画像,テキスト分類データセットを用いて評価した。
論文 参考訳(メタデータ) (2022-09-11T21:50:03Z) - Online Selective Classification with Limited Feedback [82.68009460301585]
オンライン学習モデルにおいて、予測者がインスタンスの分類を控える可能性のある選択的分類について検討する。
私たちが考慮している設定の健全な2つの側面は、データが不可避である可能性があるため、データは不可避である可能性があるということです。
smash$tildeO(T1-mu)$ over abstention against Adaptive adversaries. smash$tildeO(T1-mu)$ incurring smash$tildeO(T1-mu)$ over abstention。
論文 参考訳(メタデータ) (2021-10-27T08:00:53Z) - Unrolling Particles: Unsupervised Learning of Sampling Distributions [102.72972137287728]
粒子フィルタリングは複素系の優れた非線形推定を計算するために用いられる。
粒子フィルタは様々なシナリオにおいて良好な推定値が得られることを示す。
論文 参考訳(メタデータ) (2021-10-06T16:58:34Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Compressive Summarization with Plausibility and Salience Modeling [54.37665950633147]
本稿では,候補空間に対する厳密な構文的制約を緩和し,その代わりに圧縮決定を2つのデータ駆動基準,すなわち妥当性とサリエンスに委ねることを提案する。
提案手法は,ベンチマーク要約データセット上で強いドメイン内結果を得るとともに,人間による評価により,文法的および事実的削除に対して,可算性モデルが一般的に選択されることを示す。
論文 参考訳(メタデータ) (2020-10-15T17:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。