論文の概要: Data Deletion for Linear Regression with Noisy SGD
- arxiv url: http://arxiv.org/abs/2410.09311v1
- Date: Sat, 12 Oct 2024 00:20:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 15:13:33.231214
- Title: Data Deletion for Linear Regression with Noisy SGD
- Title(参考訳): 雑音SGDを用いた線形回帰データ削除
- Authors: Zhangjie Xia, Chi-Hua Wang, Guang Cheng,
- Abstract要約: 古典線形回帰タスクにおける1ステップ雑音SGDの完全削除点問題を提案する。
本研究は,データ削除の重要性を浮き彫りにして,この分野におけるさらなる研究の必要性を緊急に求めるものである。
- 参考スコア(独自算出の注目度): 9.784347635082232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the current era of big data and machine learning, it's essential to find ways to shrink the size of training dataset while preserving the training performance to improve efficiency. However, the challenge behind it includes providing practical ways to find points that can be deleted without significantly harming the training result and suffering from problems like underfitting. We therefore present the perfect deleted point problem for 1-step noisy SGD in the classical linear regression task, which aims to find the perfect deleted point in the training dataset such that the model resulted from the deleted dataset will be identical to the one trained without deleting it. We apply the so-called signal-to-noise ratio and suggest that its value is closely related to the selection of the perfect deleted point. We also implement an algorithm based on this and empirically show the effectiveness of it in a synthetic dataset. Finally we analyze the consequences of the perfect deleted point, specifically how it affects the training performance and privacy budget, therefore highlighting its potential. This research underscores the importance of data deletion and calls for urgent need for more studies in this field.
- Abstract(参考訳): ビッグデータと機械学習の現在の時代には、トレーニングパフォーマンスを保ち、効率を向上させるためにトレーニングデータセットのサイズを縮小する方法を見つけることが不可欠です。
しかし、その背景にある課題は、トレーニング結果を著しく損なうことなく削除できる点を見つけるための実践的な方法を提供することと、不適合のような問題に悩まされることである。
そこで, 古典線形回帰タスクにおいて, 1ステップノイズの多いSGDの完全削除点問題を提案する。これは, 削除したデータセットから得られたモデルが, 削除せずに訓練したものと同一となるように, トレーニングデータセットの完全削除点を見つけることを目的としている。
いわゆる信号対雑音比を適用し、その値が完全削除点の選択と密接に関連していることを示唆する。
また、これに基づいてアルゴリズムを実装し、その効果を人工データセットで実証的に示す。
最後に、完全に削除されたポイントの結果、特にトレーニングのパフォーマンスとプライバシ予算にどのように影響するかを分析し、その可能性を強調します。
本研究は,データ削除の重要性を浮き彫りにして,この分野におけるさらなる研究の必要性を緊急に求めるものである。
関連論文リスト
- Erase then Rectify: A Training-Free Parameter Editing Approach for Cost-Effective Graph Unlearning [17.85404473268992]
グラフアンラーニングは、訓練されたグラフニューラルネットワーク(GNN)からノード、エッジ、属性の影響を排除することを目的としている。
既存のグラフアンラーニング技術は、しばしば残りのデータに対する追加のトレーニングを必要とし、かなりの計算コストをもたらす。
本稿では,2段階の学習自由アプローチであるETR(Erase then Rectify)を提案する。
論文 参考訳(メタデータ) (2024-09-25T07:20:59Z) - Partially Blinded Unlearning: Class Unlearning for Deep Networks a Bayesian Perspective [4.31734012105466]
マシン・アンラーニング(英: Machine Unlearning)とは、特定のデータセットやクラスに指定された情報を事前訓練されたモデルから選択的に破棄するプロセスである。
本研究では,事前学習した分類ネットワークから,特定の種類のデータに関連付けられた情報の目的的除去に適した手法を提案する。
本手法は,従来の最先端の未学習手法を超越し,優れた有効性を示す。
論文 参考訳(メタデータ) (2024-03-24T17:33:22Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - Forget Unlearning: Towards True Data-Deletion in Machine Learning [18.656957502454592]
アンラーニングはデータ削除と同等ではなく、「忘れられる権利」を保証していないことを示す。
本稿では,オンライン環境での精度,計算効率,セキュアなデータ削除機械学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-17T10:06:11Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Approximate Data Deletion from Machine Learning Models [31.689174311625084]
トレーニングされた機械学習(ML)モデルからデータを削除することは、多くのアプリケーションにおいて重要なタスクである。
線形モデルとロジスティックモデルに対する近似的削除法を提案する。
また,MLモデルからのデータ削除の完全性を評価するための機能注入テストも開発した。
論文 参考訳(メタデータ) (2020-02-24T05:12:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。