論文の概要: Holdout-Based Fidelity and Privacy Assessment of Mixed-Type Synthetic
Data
- arxiv url: http://arxiv.org/abs/2104.00635v1
- Date: Thu, 1 Apr 2021 17:30:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 13:52:54.311070
- Title: Holdout-Based Fidelity and Privacy Assessment of Mixed-Type Synthetic
Data
- Title(参考訳): 混合型合成データの保持率とプライバシー評価
- Authors: Michael Platzer and Thomas Reutterer
- Abstract要約: aiベースのデータ合成はここ数年で急速に進歩しており、プライバシを尊重するデータ共有を可能にするという約束がますます認識されている。
我々は,合成データソリューションの信頼性とプライバシリスクを定量化するための,ホールドアウトに基づく実証的評価フレームワークを紹介し,実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI-based data synthesis has seen rapid progress over the last several years,
and is increasingly recognized for its promise to enable privacy-respecting
high-fidelity data sharing. However, adequately evaluating the quality of
generated synthetic datasets is still an open challenge. We introduce and
demonstrate a holdout-based empirical assessment framework for quantifying the
fidelity as well as the privacy risk of synthetic data solutions for mixed-type
tabular data. Measuring fidelity is based on statistical distances of
lower-dimensional marginal distributions, which provide a model-free and
easy-to-communicate empirical metric for the representativeness of a synthetic
dataset. Privacy risk is assessed by calculating the individual-level distances
to closest record with respect to the training data. By showing that the
synthetic samples are just as close to the training as to the holdout data, we
yield strong evidence that the synthesizer indeed learned to generalize
patterns and is independent of individual training records. We demonstrate the
presented framework for seven distinct synthetic data solutions across four
mixed-type datasets and compare these to more traditional statistical
disclosure techniques. The results highlight the need to systematically assess
the fidelity just as well as the privacy of these emerging class of synthetic
data generators.
- Abstract(参考訳): aiベースのデータ合成はここ数年で急速に進歩しており、プライバシを尊重する高忠実度データ共有を可能にするという約束がますます認識されている。
しかし、生成した合成データセットの品質を適切に評価することは、まだオープンな課題である。
混合型表データに対する合成データソリューションの信頼性とプライバシーリスクを定量化する,ホールトアウトに基づく経験的評価フレームワークを導入,実証する。
忠実度の測定は、低次元の辺縁分布の統計距離に基づいており、合成データセットの代表性のためにモデルフリーで共有しやすい経験的計量を提供する。
トレーニングデータに対して、個人レベルから最も近い記録までの距離を計算することにより、プライバシリスクを評価する。
合成サンプルがホールドアウトデータと同等のトレーニングであることを示すことにより、合成者が実際にパターンを一般化し、個々のトレーニングレコードから独立していることの強い証拠が得られる。
4つの混合型データセットにまたがる7つの異なる合成データソリューションのためのフレームワークを実証し、これらを従来の統計開示手法と比較する。
結果は、これらの新興の合成データジェネレータのプライバシーだけでなく、忠実度を体系的に評価する必要性を浮き彫りにしている。
関連論文リスト
- A Multi-Faceted Evaluation Framework for Assessing Synthetic Data Generated by Large Language Models [3.672850225066168]
生成AIと大規模言語モデル(LLM)は、合成データを生成するための新たな道を開いた。
潜在的なメリットにもかかわらず、プライバシー漏洩に関する懸念が浮上している。
我々は,合成表データの忠実さ,有用性,およびプライバシー保護を評価するために設計されたオープンソースの評価フレームワークであるSynEvalを紹介する。
論文 参考訳(メタデータ) (2024-04-20T08:08:28Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - SDFR: Synthetic Data for Face Recognition Competition [51.9134406629509]
大規模な顔認識データセットは、インターネットをクロールして個人の同意なしに収集し、法的、倫理的、プライバシー上の懸念を提起する。
近年、ウェブクローリングされた顔認識データセットにおける懸念を軽減するために、合成顔認識データセットの生成が提案されている。
本稿では,第18回IEEE International Conference on Automatic Face and Gesture Recognition (FG 2024)と共同で開催されているSynthetic Data for Face Recognition (SDFR)コンペティションの概要を紹介する。
SDFRコンペティションは2つのタスクに分けられ、参加者は新しい合成データセットまたは/または既存のデータセットを使用して顔認識システムを訓練することができる。
論文 参考訳(メタデータ) (2024-04-06T10:30:31Z) - Conformalised data synthesis with statistical quality guarantees [0.0]
データ合成は、データハングリーモデルの需要に対応するための有望な技術である。
しかし、「合成器」モデルの出力の品質を確実に評価することは、オープンな研究課題である。
我々は統計的信頼性を保証するユニークな自信データ合成アルゴリズムを設計した。
論文 参考訳(メタデータ) (2023-12-14T14:44:08Z) - Boosting Data Analytics With Synthetic Volume Expansion [3.568650932986342]
本稿では,合成データに対する統計的手法の有効性と,合成データのプライバシーリスクについて考察する。
この枠組みにおける重要な発見は、合成データに対する統計的手法の誤差率は、より多くの合成データを追加することで減少するが、最終的には上昇または安定化する可能性があることを明らかにする世代効果である。
論文 参考訳(メタデータ) (2023-10-27T01:57:27Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Statistical properties and privacy guarantees of an original
distance-based fully synthetic data generation method [0.0]
この研究は、多段階のフレームワークを用いて、公開リリース可能な合成データを生成する技術的実現可能性を示す。
新たな多段階合成データ生成フレームワークを用いて生成したデータの質を評価することで,Open-CESPイニシアチブの技術的,概念的健全性を実証した。
論文 参考訳(メタデータ) (2023-10-10T12:29:57Z) - Synthetic data generation for a longitudinal cohort study -- Evaluation,
method extension and reproduction of published data analysis results [0.32593385688760446]
医療分野では、プライバシー上の懸念から個人レベルのデータへのアクセスは困難であることが多い。
有望な代替手段は、完全な合成データの生成である。
本研究では,最先端の合成データ生成手法を用いる。
論文 参考訳(メタデータ) (2023-05-12T13:13:55Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。