論文の概要: Really Useful Synthetic Data -- A Framework to Evaluate the Quality of
Differentially Private Synthetic Data
- arxiv url: http://arxiv.org/abs/2004.07740v2
- Date: Fri, 1 Oct 2021 17:11:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 21:12:23.564956
- Title: Really Useful Synthetic Data -- A Framework to Evaluate the Quality of
Differentially Private Synthetic Data
- Title(参考訳): リアルに有用な合成データ -- 微分プライベートな合成データの品質を評価するためのフレームワーク
- Authors: Christian Arnold and Marcel Neunhoeffer
- Abstract要約: プライバシ保護の原則を付加する合成データ生成の最近の進歩は、プライバシ保護の方法で統計情報を共有するための重要なステップである。
データプライバシとデータ品質のトレードオフを最適化するためには、後者について詳しく考える必要があります。
本研究では,応用研究者の視点から,差分的にプライベートな合成データの質を評価する枠組みを開発する。
- 参考スコア(独自算出の注目度): 2.538209532048867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in generating synthetic data that allow to add principled
ways of protecting privacy -- such as Differential Privacy -- are a crucial
step in sharing statistical information in a privacy preserving way. But while
the focus has been on privacy guarantees, the resulting private synthetic data
is only useful if it still carries statistical information from the original
data. To further optimise the inherent trade-off between data privacy and data
quality, it is necessary to think closely about the latter. What is it that
data analysts want? Acknowledging that data quality is a subjective concept, we
develop a framework to evaluate the quality of differentially private synthetic
data from an applied researcher's perspective. Data quality can be measured
along two dimensions. First, quality of synthetic data can be evaluated against
training data or against an underlying population. Second, the quality of
synthetic data depends on general similarity of distributions or specific tasks
such as inference or prediction. It is clear that accommodating all goals at
once is a formidable challenge. We invite the academic community to jointly
advance the privacy-quality frontier.
- Abstract(参考訳): ディファレンシャルプライバシなどのプライバシ保護の原則的な方法を追加するための合成データ生成の最近の進歩は、プライバシ保護方法で統計情報を共有するための重要なステップである。
しかし、プライバシーの保証に焦点が当てられているが、結果として得られるプライベートな合成データは、元のデータから統計情報を運ぶ場合にのみ有用である。
データプライバシとデータ品質の間の固有のトレードオフをさらに最適化するには、後者についてよく考える必要がある。
データアナリストが望むものは何か?
本研究では,データ品質が主観的概念であることを認め,応用研究者の視点から差分プライベートな合成データの質を評価する枠組みを開発する。
データ品質は2次元で測定できる。
第一に、合成データの質は、トレーニングデータや基礎となる人口に対して評価することができる。
第二に、合成データの品質は分布の一般的な類似性や推論や予測のような特定のタスクに依存する。
一度にすべての目標を順守することは、非常に難しい課題であることは明らかです。
私たちは学術コミュニティに、プライバシー品質のフロンティアを共同で進めるよう呼びかけます。
関連論文リスト
- Scaling While Privacy Preserving: A Comprehensive Synthetic Tabular Data
Generation and Evaluation in Learning Analytics [0.412484724941528]
プライバシーは学習分析(LA)の進歩に大きな障害となり、匿名化の不十分さやデータ誤用といった課題を提示している。
合成データは潜在的な対策として現れ、堅牢なプライバシー保護を提供する。
LAの合成データに関する以前の研究では、プライバシーとデータユーティリティの微妙なバランスを評価するのに不可欠な、徹底的な評価が欠如していた。
論文 参考訳(メタデータ) (2024-01-12T20:27:55Z) - Federated Learning Empowered by Generative Content [55.576885852501775]
フェデレートラーニング(FL)は、プライバシ保護方法でモデルのトレーニングに分散プライベートデータを活用可能にする。
本稿では,FedGCと呼ばれる新しいFLフレームワークを提案する。
我々は、さまざまなベースライン、データセット、シナリオ、モダリティをカバーする、FedGCに関する体系的な実証的研究を行う。
論文 参考訳(メタデータ) (2023-12-10T07:38:56Z) - The Use of Synthetic Data to Train AI Models: Opportunities and Risks
for Sustainable Development [0.6906005491572401]
本稿では,合成データの生成,利用,普及を規定する政策について検討する。
優れた合成データポリシーは、プライバシの懸念とデータの有用性のバランスを取らなければならない。
論文 参考訳(メタデータ) (2023-08-31T23:18:53Z) - Auditing and Generating Synthetic Data with Controllable Trust
Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - No Free Lunch in "Privacy for Free: How does Dataset Condensation Help
Privacy" [75.98836424725437]
データプライバシを保護するために設計された新しい手法は、慎重に精査する必要がある。
プライバシ保護の失敗は検出し難いが,プライバシ保護法を実装したシステムが攻撃された場合,破滅的な結果につながる可能性がある。
論文 参考訳(メタデータ) (2022-09-29T17:50:23Z) - Enabling Synthetic Data adoption in regulated domains [1.9512796489908306]
Model-CentricからData-Centricへの転換は、アルゴリズムよりもデータとその品質に重点を置いている。
特に、高度に規制されたシナリオにおける情報のセンシティブな性質を考慮する必要がある。
このようなコンウンドラムをバイパスする巧妙な方法は、生成プロセスから得られたデータであるSynthetic Dataに依存し、実際のデータプロパティを学習する。
論文 参考訳(メタデータ) (2022-04-13T10:53:54Z) - Causally Constrained Data Synthesis for Private Data Release [36.80484740314504]
原データの特定の統計特性を反映した合成データを使用することで、原データのプライバシーが保護される。
以前の作業では、正式なプライバシ保証を提供するために、差分プライベートなデータリリースメカニズムを使用していました。
トレーニングプロセスに因果情報を導入し、上記のトレードオフを好意的に修正することを提案する。
論文 参考訳(メタデータ) (2021-05-27T13:46:57Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - Fidelity and Privacy of Synthetic Medical Data [0.0]
医療記録のデジタル化は、新時代のビッグデータから臨床科学へとつながった。
個々のレベルの医療データを共有する必要性は増え続けており、これ以上緊急ではない。
ビッグデータの利用に対する熱意は、患者の自律性とプライバシに対する完全な適切な懸念によって誘惑された。
論文 参考訳(メタデータ) (2021-01-18T23:01:27Z) - A Philosophy of Data [91.3755431537592]
我々は、統計計算に必要な基本特性から統計データの定義まで研究する。
我々は、有用なデータの必要性は、プロパティを根本的にユニークか等しく理解することを規則化する必要があると論じている。
データとデータ技術への依存度が高まるにつれて、この2つの特徴は現実の集合概念に影響を与えます。
論文 参考訳(メタデータ) (2020-04-15T14:47:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。