Fugu-MT 論文翻訳(概要): Data Deletion for Linear Regression with Noisy SGD

論文の概要: Data Deletion for Linear Regression with Noisy SGD

arxiv url: http://arxiv.org/abs/2410.09311v1
Date: Sat, 12 Oct 2024 00:20:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 15:13:33.231214
Title: Data Deletion for Linear Regression with Noisy SGD
Title（参考訳）: 雑音SGDを用いた線形回帰データ削除
Authors: Zhangjie Xia, Chi-Hua Wang, Guang Cheng,
Abstract要約: 古典線形回帰タスクにおける1ステップ雑音SGDの完全削除点問題を提案する。本研究は,データ削除の重要性を浮き彫りにして,この分野におけるさらなる研究の必要性を緊急に求めるものである。
参考スコア（独自算出の注目度）: 9.784347635082232
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the current era of big data and machine learning, it's essential to find ways to shrink the size of training dataset while preserving the training performance to improve efficiency. However, the challenge behind it includes providing practical ways to find points that can be deleted without significantly harming the training result and suffering from problems like underfitting. We therefore present the perfect deleted point problem for 1-step noisy SGD in the classical linear regression task, which aims to find the perfect deleted point in the training dataset such that the model resulted from the deleted dataset will be identical to the one trained without deleting it. We apply the so-called signal-to-noise ratio and suggest that its value is closely related to the selection of the perfect deleted point. We also implement an algorithm based on this and empirically show the effectiveness of it in a synthetic dataset. Finally we analyze the consequences of the perfect deleted point, specifically how it affects the training performance and privacy budget, therefore highlighting its potential. This research underscores the importance of data deletion and calls for urgent need for more studies in this field.
Abstract（参考訳）: ビッグデータと機械学習の現在の時代には、トレーニングパフォーマンスを保ち、効率を向上させるためにトレーニングデータセットのサイズを縮小する方法を見つけることが不可欠です。しかし、その背景にある課題は、トレーニング結果を著しく損なうことなく削除できる点を見つけるための実践的な方法を提供することと、不適合のような問題に悩まされることである。そこで, 古典線形回帰タスクにおいて, 1ステップノイズの多いSGDの完全削除点問題を提案する。これは, 削除したデータセットから得られたモデルが, 削除せずに訓練したものと同一となるように, トレーニングデータセットの完全削除点を見つけることを目的としている。いわゆる信号対雑音比を適用し、その値が完全削除点の選択と密接に関連していることを示唆する。また、これに基づいてアルゴリズムを実装し、その効果を人工データセットで実証的に示す。最後に、完全に削除されたポイントの結果、特にトレーニングのパフォーマンスとプライバシ予算にどのように影響するかを分析し、その可能性を強調します。本研究は,データ削除の重要性を浮き彫りにして,この分野におけるさらなる研究の必要性を緊急に求めるものである。

関連論文リスト

When to Forget? Complexity Trade-offs in Machine Unlearning [23.507879460531264]
Machine Unlearning(MU)は、トレーニングされたモデルから特定のデータポイントの影響を取り除くことを目的としている。本研究では,非学習手法の効率を解析し,この問題に対するミニマックス時間における第1の上限値と第2の上限値の設定を行う。未学習度比の位相図 – 最高の未学習手法の計算コストと完全なモデル再学習を比較する新しいメトリクスを提供する。
論文参考訳（メタデータ） (2025-02-24T16:56:27Z)
UPCORE: Utility-Preserving Coreset Selection for Balanced Unlearning [57.081646768835704]
ユーザ仕様や法的フレームワークは、しばしば、大きな言語モデル(LLM)を含む、事前訓練されたモデルから削除される情報を必要とする。これは、既に訓練済みのモデルからデータポイントのセットを削除または"偽造"する必要がある。本研究では,非学習時の副次的損傷を軽減するための手法に依存しないデータ選択フレームワークUPCOREを提案する。
論文参考訳（メタデータ） (2025-02-20T22:51:10Z)
Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-12-12T18:28:55Z)
Erase then Rectify: A Training-Free Parameter Editing Approach for Cost-Effective Graph Unlearning [17.85404473268992]
グラフアンラーニングは、訓練されたグラフニューラルネットワーク(GNN)からノード、エッジ、属性の影響を排除することを目的としている。既存のグラフアンラーニング技術は、しばしば残りのデータに対する追加のトレーニングを必要とし、かなりの計算コストをもたらす。本稿では,2段階の学習自由アプローチであるETR(Erase then Rectify)を提案する。
論文参考訳（メタデータ） (2024-09-25T07:20:59Z)
Partially Blinded Unlearning: Class Unlearning for Deep Networks a Bayesian Perspective [4.31734012105466]
マシン・アンラーニング(英: Machine Unlearning)とは、特定のデータセットやクラスに指定された情報を事前訓練されたモデルから選択的に破棄するプロセスである。本研究では,事前学習した分類ネットワークから,特定の種類のデータに関連付けられた情報の目的的除去に適した手法を提案する。本手法は,従来の最先端の未学習手法を超越し,優れた有効性を示す。
論文参考訳（メタデータ） (2024-03-24T17:33:22Z)
Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文参考訳（メタデータ） (2023-12-07T07:17:24Z)
Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-31T03:35:59Z)
TRIAGE: Characterizing and auditing training data for improved regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。 TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。 TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文参考訳（メタデータ） (2023-10-29T10:31:59Z)
Forget Unlearning: Towards True Data-Deletion in Machine Learning [18.656957502454592]
アンラーニングはデータ削除と同等ではなく、「忘れられる権利」を保証していないことを示す。本稿では,オンライン環境での精度,計算効率,セキュアなデータ削除機械学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-10-17T10:06:11Z)
Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文参考訳（メタデータ） (2021-08-26T04:42:24Z)
Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文参考訳（メタデータ） (2021-06-02T11:39:25Z)
Provably Efficient Causal Reinforcement Learning with Confounded Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-22T14:49:33Z)
Approximate Data Deletion from Machine Learning Models [31.689174311625084]
トレーニングされた機械学習(ML)モデルからデータを削除することは、多くのアプリケーションにおいて重要なタスクである。線形モデルとロジスティックモデルに対する近似的削除法を提案する。また,MLモデルからのデータ削除の完全性を評価するための機能注入テストも開発した。
論文参考訳（メタデータ） (2020-02-24T05:12:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。