論文の概要: Benchmarking Differentially Private Tabular Data Synthesis
- arxiv url: http://arxiv.org/abs/2504.14061v1
- Date: Fri, 18 Apr 2025 20:27:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 05:33:55.755578
- Title: Benchmarking Differentially Private Tabular Data Synthesis
- Title(参考訳): 個人差分タブラルデータ合成のベンチマーク
- Authors: Kai Chen, Xiaochen Li, Chen Gong, Ryan McKenna, Tianhao Wang,
- Abstract要約: 本稿では,異なるDPデータ合成手法を評価するためのベンチマークを提案する。
評価の結果,現在の最先端手法には,有意義な実用効率トレードオフが存在することが明らかとなった。
実験的な検証により各モジュールの詳細な分析を行い、異なる戦略の強みと限界に関する理論的洞察を提供する。
- 参考スコア(独自算出の注目度): 21.320681813245525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Differentially private (DP) tabular data synthesis generates artificial data that preserves the statistical properties of private data while safeguarding individual privacy. The emergence of diverse algorithms in recent years has introduced challenges in practical applications, such as inconsistent data processing methods, lack of in-depth algorithm analysis, and incomplete comparisons due to overlapping development timelines. These factors create significant obstacles to selecting appropriate algorithms. In this paper, we address these challenges by proposing a benchmark for evaluating tabular data synthesis methods. We present a unified evaluation framework that integrates data preprocessing, feature selection, and synthesis modules, facilitating fair and comprehensive comparisons. Our evaluation reveals that a significant utility-efficiency trade-off exists among current state-of-the-art methods. Some statistical methods are superior in synthesis utility, but their efficiency is not as good as most machine learning-based methods. Furthermore, we conduct an in-depth analysis of each module with experimental validation, offering theoretical insights into the strengths and limitations of different strategies.
- Abstract(参考訳): 微分プライベート(DP)表データ合成は、個人のプライバシーを保護しながら、個人の統計特性を保存する人工データを生成する。
近年の多様なアルゴリズムの出現は、一貫性のないデータ処理方法、深いアルゴリズム分析の欠如、開発スケジュールの重複による不完全な比較など、実用上の課題を提起している。
これらの要因は適切なアルゴリズムを選択する上で大きな障害となる。
本稿では,これらの課題に対して,表形式のデータ合成手法を評価するためのベンチマークを提案する。
データ前処理,特徴選択,合成モジュールを統合し,公正かつ包括的な比較を容易にする統一評価フレームワークを提案する。
評価の結果,現在の最先端手法には,有意義な実用効率トレードオフが存在することが明らかとなった。
いくつかの統計手法は合成ユーティリティにおいて優れているが、その効率はほとんどの機械学習手法ほど良くない。
さらに,各モジュールについて実験的な検証を行い,異なる戦略の強みと限界に関する理論的知見を提供する。
関連論文リスト
- Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Systematic Assessment of Tabular Data Synthesis Algorithms [9.08530697055844]
データ合成アルゴリズムを評価するための体系的評価フレームワークを提案する。
それらの制限に対処するために、フィリティ、プライバシ、ユーティリティの観点から、一連の新しいメトリクスを導入します。
また,提案手法に基づいて,合成データの質を継続的に向上する,チューニングのための統一的な目標も考案した。
論文 参考訳(メタデータ) (2024-02-09T22:07:59Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - Partition-based differentially private synthetic data generation [0.5095097384893414]
プライバシ予算が限られていても、エラーを低減し、合成データの品質を向上させる分割ベースのアプローチを提案する。
提案手法を用いて生成した合成データは、品質と有用性の向上を示し、プライベートな合成データ共有に好適な選択である。
論文 参考訳(メタデータ) (2023-10-10T07:23:37Z) - SoK: Privacy-Preserving Data Synthesis [72.92263073534899]
本稿では,プライバシ保護データ合成(PPDS)に注目し,その分野の総合的な概要,分析,議論を行う。
PPDSでは,統計的手法と深層学習(DL)に基づく手法の2つの顕著な研究を統一するマスターレシピを作成した。
論文 参考訳(メタデータ) (2023-07-05T08:29:31Z) - Differentially Private Synthetic Data Using KD-Trees [11.96971298978997]
ノイズ摂動とともに空間分割技術を活用し,直観的かつ透過的なアルゴリズムを実現する。
我々は、$epsilon$-differentially private synthesis data generationのためのデータ独立アルゴリズムとデータ依存アルゴリズムの両方を提案する。
先行研究に対して実証的な実用性向上を示すとともに,実データセット上の下流分類タスクにおけるアルゴリズムの性能について考察する。
論文 参考訳(メタデータ) (2023-06-19T17:08:32Z) - Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。
特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。
ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文 参考訳(メタデータ) (2022-10-04T15:22:39Z) - Leachable Component Clustering [10.377914682543903]
本研究では,非完全データのクラスタリングに対する新たなアプローチとして,リーチ可能なコンポーネントクラスタリングを提案する。
提案手法はベイズアライメントを用いてデータ計算を処理し,理論上失われたパターンを収集する。
いくつかの人工不完全データセットの実験により、提案手法は、他の最先端アルゴリズムと比較して優れた性能を示すことができることを示した。
論文 参考訳(メタデータ) (2022-08-28T13:13:17Z) - A Field Guide to Federated Optimization [161.3779046812383]
フェデレートされた学習と分析は、分散化されたデータからモデル(あるいは統計)を協調的に学習するための分散アプローチである。
本稿では、フェデレート最適化アルゴリズムの定式化、設計、評価、分析に関する勧告とガイドラインを提供する。
論文 参考訳(メタデータ) (2021-07-14T18:09:08Z) - Foundations of Bayesian Learning from Synthetic Data [1.6249267147413522]
我々はベイズパラダイムを用いて、合成データから学習する際のモデルパラメータの更新を特徴付ける。
ベイジアン・アップデートの最近の成果は、決定理論に基づく新しい、堅牢な合成学習のアプローチを支持している。
論文 参考訳(メタデータ) (2020-11-16T21:49:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。