論文の概要: Holdout-Based Fidelity and Privacy Assessment of Mixed-Type Synthetic
Data
- arxiv url: http://arxiv.org/abs/2104.00635v1
- Date: Thu, 1 Apr 2021 17:30:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 13:52:54.311070
- Title: Holdout-Based Fidelity and Privacy Assessment of Mixed-Type Synthetic
Data
- Title(参考訳): 混合型合成データの保持率とプライバシー評価
- Authors: Michael Platzer and Thomas Reutterer
- Abstract要約: aiベースのデータ合成はここ数年で急速に進歩しており、プライバシを尊重するデータ共有を可能にするという約束がますます認識されている。
我々は,合成データソリューションの信頼性とプライバシリスクを定量化するための,ホールドアウトに基づく実証的評価フレームワークを紹介し,実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI-based data synthesis has seen rapid progress over the last several years,
and is increasingly recognized for its promise to enable privacy-respecting
high-fidelity data sharing. However, adequately evaluating the quality of
generated synthetic datasets is still an open challenge. We introduce and
demonstrate a holdout-based empirical assessment framework for quantifying the
fidelity as well as the privacy risk of synthetic data solutions for mixed-type
tabular data. Measuring fidelity is based on statistical distances of
lower-dimensional marginal distributions, which provide a model-free and
easy-to-communicate empirical metric for the representativeness of a synthetic
dataset. Privacy risk is assessed by calculating the individual-level distances
to closest record with respect to the training data. By showing that the
synthetic samples are just as close to the training as to the holdout data, we
yield strong evidence that the synthesizer indeed learned to generalize
patterns and is independent of individual training records. We demonstrate the
presented framework for seven distinct synthetic data solutions across four
mixed-type datasets and compare these to more traditional statistical
disclosure techniques. The results highlight the need to systematically assess
the fidelity just as well as the privacy of these emerging class of synthetic
data generators.
- Abstract(参考訳): aiベースのデータ合成はここ数年で急速に進歩しており、プライバシを尊重する高忠実度データ共有を可能にするという約束がますます認識されている。
しかし、生成した合成データセットの品質を適切に評価することは、まだオープンな課題である。
混合型表データに対する合成データソリューションの信頼性とプライバシーリスクを定量化する,ホールトアウトに基づく経験的評価フレームワークを導入,実証する。
忠実度の測定は、低次元の辺縁分布の統計距離に基づいており、合成データセットの代表性のためにモデルフリーで共有しやすい経験的計量を提供する。
トレーニングデータに対して、個人レベルから最も近い記録までの距離を計算することにより、プライバシリスクを評価する。
合成サンプルがホールドアウトデータと同等のトレーニングであることを示すことにより、合成者が実際にパターンを一般化し、個々のトレーニングレコードから独立していることの強い証拠が得られる。
4つの混合型データセットにまたがる7つの異なる合成データソリューションのためのフレームワークを実証し、これらを従来の統計開示手法と比較する。
結果は、これらの新興の合成データジェネレータのプライバシーだけでなく、忠実度を体系的に評価する必要性を浮き彫りにしている。
関連論文リスト
- Reliability in Semantic Segmentation: Can We Use Synthetic Data? [52.5766244206855]
本稿では,セマンティックセグメンテーションにおける信頼性を評価するために,データの自動合成を行う最先端生成モデルに挑戦する。
安定拡散を微調整することにより、OODドメインやOODオブジェクトに塗布された合成データのゼロショット生成を行う。
我々は,合成データの性能と実OODデータの性能との間に高い相関関係を示し,妥当性を示す。
論文 参考訳(メタデータ) (2023-12-14T18:56:07Z) - Conformalised data synthesis with statistical quality guarantees [0.0]
データ合成は、データハングリーモデルの需要に対応するための有望な技術である。
しかし、「合成器」モデルの出力の品質を確実に評価することは、オープンな研究課題である。
我々は統計的信頼性を保証するユニークな自信データ合成アルゴリズムを設計した。
論文 参考訳(メタデータ) (2023-12-14T14:44:08Z) - Strong statistical parity through fair synthetic data [0.0]
本稿では,デザインによる公正さを具現化した合成データの作成について検討する。
このような合成データに基づいてトレーニングされた下流モデルは、すべての閾値にわたって公正な予測を提供する。
論文 参考訳(メタデータ) (2023-11-06T10:06:30Z) - Boosting Data Analytics With Synthetic Volume Expansion [3.568650932986342]
本稿では,合成データに対する統計的手法の有効性と,合成データのプライバシーリスクについて考察する。
この枠組みにおける重要な発見は、合成データに対する統計的手法の誤差率は、より多くの合成データを追加することで減少するが、最終的には上昇または安定化する可能性があることを明らかにする世代効果である。
論文 参考訳(メタデータ) (2023-10-27T01:57:27Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Statistical properties and privacy guarantees of an original
distance-based fully synthetic data generation method [0.0]
この研究は、多段階のフレームワークを用いて、公開リリース可能な合成データを生成する技術的実現可能性を示す。
新たな多段階合成データ生成フレームワークを用いて生成したデータの質を評価することで,Open-CESPイニシアチブの技術的,概念的健全性を実証した。
論文 参考訳(メタデータ) (2023-10-10T12:29:57Z) - Synthetic data generation for a longitudinal cohort study -- Evaluation,
method extension and reproduction of published data analysis results [0.32593385688760446]
医療分野では、プライバシー上の懸念から個人レベルのデータへのアクセスは困難であることが多い。
有望な代替手段は、完全な合成データの生成である。
本研究では,最先端の合成データ生成手法を用いる。
論文 参考訳(メタデータ) (2023-05-12T13:13:55Z) - Auditing and Generating Synthetic Data with Controllable Trust
Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。