論文の概要: Delete My Account: Impact of Data Deletion on Machine Learning
Classifiers
- arxiv url: http://arxiv.org/abs/2311.10385v1
- Date: Fri, 17 Nov 2023 08:23:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-20 15:22:43.213010
- Title: Delete My Account: Impact of Data Deletion on Machine Learning
Classifiers
- Title(参考訳): delete my account: 機械学習分類器におけるデータ削除の影響
- Authors: Tobias Dam and Maximilian Henzl and Lukas Daniel Klausner
- Abstract要約: 消去の権利は、ビッグデータや機械学習など、さまざまな分野に潜在的に影響する可能性がある。
本稿では,機械学習モデルの性能に及ぼす消去権の利用の影響を詳細に分析する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Users are more aware than ever of the importance of their own data, thanks to
reports about security breaches and leaks of private, often sensitive data in
recent years. Additionally, the GDPR has been in effect in the European Union
for over three years and many people have encountered its effects in one way or
another. Consequently, more and more users are actively protecting their
personal data. One way to do this is to make of the right to erasure guaranteed
in the GDPR, which has potential implications for a number of different fields,
such as big data and machine learning.
Our paper presents an in-depth analysis about the impact of the use of the
right to erasure on the performance of machine learning models on
classification tasks. We conduct various experiments utilising different
datasets as well as different machine learning algorithms to analyse a variety
of deletion behaviour scenarios. Due to the lack of credible data on actual
user behaviour, we make reasonable assumptions for various deletion modes and
biases and provide insight into the effects of different plausible scenarios
for right to erasure usage on data quality of machine learning. Our results
show that the impact depends strongly on the amount of data deleted, the
particular characteristics of the dataset and the bias chosen for deletion and
assumptions on user behaviour.
- Abstract(参考訳): セキュリティ侵害や、近年のプライベートで機密性の高いデータの漏洩に関する報告のおかげで、ユーザは自身のデータの重要性をこれまで以上に認識している。
さらに、GDPRは欧州連合(EU)で3年以上有効であり、多くの人々が何らかの形でその影響に遭遇している。
その結果、ますます多くのユーザーが個人情報を積極的に保護している。
この方法の1つは、GDPRで保証されている消去の権利を付与することであり、これは、ビッグデータや機械学習など、さまざまな分野に潜在的に影響を及ぼす可能性がある。
本稿では,機械学習モデルの性能が分類課題に与える影響に関する詳細な分析を行う。
異なるデータセットと異なる機械学習アルゴリズムを用いて様々な実験を行い、様々な削除行動シナリオを分析した。
実際のユーザの行動に関する信頼できるデータがないため、さまざまな削除モードやバイアスに対して合理的な仮定を行い、さまざまな可能性の高いシナリオがマシンラーニングのデータ品質に与える影響について洞察を与えます。
以上の結果から,削除したデータ量,データセットの特徴,削除とユーザ行動の仮定に強く依存することが示された。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving
Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。
本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文 参考訳(メタデータ) (2023-07-04T18:37:11Z) - A Pretrainer's Guide to Training Data: Measuring the Effects of Data
Age, Domain Coverage, Quality, & Toxicity [84.6421260559093]
この研究は、テキスト事前学習に関する文書化されていない直観を検証、定量化、公開するための最大の実験である。
以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
論文 参考訳(メタデータ) (2023-05-22T15:57:53Z) - Utility Assessment of Synthetic Data Generation Methods [0.0]
完全合成データを生成する方法が,その実用性に相違があるかどうかを考察する。
ボード上の他の方法よりもパフォーマンスがよい方法がいくつかあります。
機械学習モデルのトレーニングに合成データを使用する場合、分類タスクに対して有望な結果が得られる。
論文 参考訳(メタデータ) (2022-11-23T11:09:52Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - MaSS: Multi-attribute Selective Suppression [8.337285030303285]
本稿では,多属性選択抑制(Multi-Atribute Selective Suppression,MASS)を提案する。
MASSは2組のネットワーク間の対戦ゲームを通じてデータ修飾子を学習する。
本研究では,異なる領域の複数のデータセットを用いて提案手法の広範な評価を行った。
論文 参考訳(メタデータ) (2022-10-18T14:44:08Z) - Multi-Source Causal Inference Using Control Variates [81.57072928775509]
本稿では,複数のデータソースから因果効果を推定するアルゴリズムを提案する。
理論的には、これはATE推定値の分散を減少させる。
このフレームワークを結果選択バイアスの下で観測データからの推論に適用する。
論文 参考訳(メタデータ) (2021-03-30T21:20:51Z) - Correlated Differential Privacy: Feature Selection in Machine Learning [13.477069421691562]
提案手法は,データ相関の程度を管理し,プライバシを保護し,予測結果の正確性をサポートするための5つのステップを含む。
実験の結果,提案手法により,機械学習タスクによる予測精度が向上し,既存のスキームに比べて平均2乗誤差が少なくなることがわかった。
論文 参考訳(メタデータ) (2020-10-07T00:33:24Z) - Neither Private Nor Fair: Impact of Data Imbalance on Utility and
Fairness in Differential Privacy [5.416049433853457]
本研究では,データの不均衡レベルの違いが,モデルによる決定の正確性と公平性に与える影響について検討する。
私たちは、小さな不均衡やプライバシー保証の緩やかささえも、異なる影響を引き起こすことを実証しています。
論文 参考訳(メタデータ) (2020-09-10T18:35:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。