論文の概要: Energy cost and machine learning accuracy impact of k-anonymisation and
synthetic data techniques
- arxiv url: http://arxiv.org/abs/2305.07116v1
- Date: Thu, 11 May 2023 20:07:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 14:47:37.326465
- Title: Energy cost and machine learning accuracy impact of k-anonymisation and
synthetic data techniques
- Title(参考訳): k匿名化と合成データ技術によるエネルギーコストと機械学習精度への影響
- Authors: Pepijn de Reus, Ana Oprescu, Koen van Elsen
- Abstract要約: 我々は、k匿名化(一般化抑制を使用)と合成データ、および3つの機械学習モデルという2つのプライバシ向上技術を使用している。
以上の結果から,k匿名化データでトレーニングしたモデルは,元のデータでトレーニングしたモデルよりも少ないエネルギーを消費することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To address increasing societal concerns regarding privacy and climate, the EU
adopted the General Data Protection Regulation (GDPR) and committed to the
Green Deal. Considerable research studied the energy efficiency of software and
the accuracy of machine learning models trained on anonymised data sets. Recent
work began exploring the impact of privacy-enhancing techniques (PET) on both
the energy consumption and accuracy of the machine learning models, focusing on
k-anonymity. As synthetic data is becoming an increasingly popular PET, this
paper analyses the energy consumption and accuracy of two phases: a) applying
privacy-enhancing techniques to the concerned data set, b) training the models
on the concerned privacy-enhanced data set. We use two privacy-enhancing
techniques: k-anonymisation (using generalisation and suppression) and
synthetic data, and three machine-learning models. Each model is trained on
each privacy-enhanced data set. Our results show that models trained on
k-anonymised data consume less energy than models trained on the original data,
with a similar performance regarding accuracy. Models trained on synthetic data
have a similar energy consumption and a similar to lower accuracy compared to
models trained on the original data.
- Abstract(参考訳): プライバシーと気候に関する社会的懸念の高まりに対処するため、EUはGDPR(General Data Protection Regulation)を採用し、グリーンディールにコミットした。
ソフトウェアのエネルギー効率と匿名データセットでトレーニングされた機械学習モデルの精度について検討した。
最近の研究は、k匿名性に焦点を当てた機械学習モデルのエネルギー消費と正確性の両方にプライバシー向上技術(PET)が与える影響を探求し始めた。
合成データがPETとしてますます普及しつつある中、本稿では2つの相のエネルギー消費と精度について分析する。
イ 関係データセットにプライバシー強化技術を適用すること。
b) プライバシ強化データセット上でモデルをトレーニングすること。
プライバシエンハンシングにはk匿名化(一般化と抑制)と合成データと3つの機械学習モデルを用いる。
各モデルは、プライバシー強化されたデータセットでトレーニングされる。
以上の結果から,k匿名化データでトレーニングしたモデルは,元のデータでトレーニングしたモデルよりも少ないエネルギーを消費することがわかった。
合成データでトレーニングされたモデルは、元のデータでトレーニングされたモデルと同等のエネルギー消費量と低い精度を持つ。
関連論文リスト
- Empirical Privacy Evaluations of Generative and Predictive Machine Learning Models -- A review and challenges for practice [0.3069335774032178]
生成技術を展開する前に、生成した合成データに関連するプライバシーリスクを実証的に評価することが重要である。
本稿では,機械学習に基づく生成および予測モデルにおける経験的プライバシ評価の基礎となる概念と前提について概説する。
論文 参考訳(メタデータ) (2024-11-19T12:19:28Z) - Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - Assessment of Differentially Private Synthetic Data for Utility and
Fairness in End-to-End Machine Learning Pipelines for Tabular Data [3.555830838738963]
差分プライベート(DP)合成データセットは、個々のデータプロバイダのプライバシを保持しながらデータを共有するためのソリューションである。
機械学習モデルの訓練と評価に最も効果的な合成データ生成手法を同定する。
論文 参考訳(メタデータ) (2023-10-30T03:37:16Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving
Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。
本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文 参考訳(メタデータ) (2023-07-04T18:37:11Z) - Synthetic Alone: Exploring the Dark Side of Synthetic Data for
Grammatical Error Correction [5.586798679167892]
データ中心のAIアプローチは、モデルを変更することなく、モデルのパフォーマンスを向上させることを目的としている。
データ品質管理手法は、実世界のデータで訓練されたモデルに肯定的な影響を与える。
合成データのみに基づいて訓練されたモデルでは、負の影響が観測される。
論文 参考訳(メタデータ) (2023-06-26T01:40:28Z) - An Analysis of the Deployment of Models Trained on Private Tabular
Synthetic Data: Unexpected Surprises [4.129847064263057]
異なるプライベート(DP)合成データセットは、機械学習モデルをトレーニングするための強力なアプローチである。
差分プライベートな合成データ生成が分類に与える影響について検討する。
論文 参考訳(メタデータ) (2021-06-15T21:00:57Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。