Fugu-MT 論文翻訳(概要): Partition-based differentially private synthetic data generation

論文の概要: Partition-based differentially private synthetic data generation

arxiv url: http://arxiv.org/abs/2310.06371v1
Date: Tue, 10 Oct 2023 07:23:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-12 01:58:52.786811
Title: Partition-based differentially private synthetic data generation
Title（参考訳）: パーティショニングに基づく微分プライベート合成データ生成
Authors: Meifan Zhang, Dihang Deng, Lihua Yin
Abstract要約: プライバシ予算が限られていても、エラーを低減し、合成データの品質を向上させる分割ベースのアプローチを提案する。提案手法を用いて生成した合成データは、品質と有用性の向上を示し、プライベートな合成データ共有に好適な選択である。
参考スコア（独自算出の注目度）: 0.5095097384893414
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Private synthetic data sharing is preferred as it keeps the distribution and nuances of original data compared to summary statistics. The state-of-the-art methods adopt a select-measure-generate paradigm, but measuring large domain marginals still results in much error and allocating privacy budget iteratively is still difficult. To address these issues, our method employs a partition-based approach that effectively reduces errors and improves the quality of synthetic data, even with a limited privacy budget. Results from our experiments demonstrate the superiority of our method over existing approaches. The synthetic data produced using our approach exhibits improved quality and utility, making it a preferable choice for private synthetic data sharing.
Abstract（参考訳）: 個人の合成データ共有は、要約統計と比較して元のデータの分布とニュアンスを維持することが望ましい。最先端の手法では選択基準生成パラダイムを採用しているが、大きなドメイン境界の測定は依然としてエラーが多く、プライバシ予算を反復的に割り当てるのは難しい。これらの問題に対処するため,本手法では,プライバシ予算が限られている場合でも,エラーを効果的に低減し,合成データの品質を向上させるパーティションベースアプローチを採用している。実験の結果,既存の手法よりも優れた方法が得られた。本手法により得られた合成データは品質と有用性が向上し,プライベートな合成データ共有に好適な選択肢となる。

関連論文リスト

Improving Noise Efficiency in Privacy-preserving Dataset Distillation [59.57846442477106]
本稿では,最適化からサンプリングを分離してコンバージェンスを向上し,信号品質を向上させる新しいフレームワークを提案する。 CIFAR-10では,従来の最先端手法の蒸留セットサイズを5分の1に減らして,クラス毎50イメージでtextbf10.0%,クラス毎50イメージで textbf8.3%向上した。
論文参考訳（メタデータ） (2025-08-03T13:15:52Z)
Latent Noise Injection for Private and Statistically Aligned Synthetic Data Generation [7.240170769827935]
データの合成は、スケーラブルでプライバシー保護の統計分析に欠かせないものとなっている。マスク付き自己回帰流(MAF)を用いた潜時ノイズ注入法を提案する。トレーニングされたモデルから直接サンプリングする代わりに、我々のメソッドは潜在空間の各データポイントを摂動させ、それをデータドメインにマップします。
論文参考訳（メタデータ） (2025-06-19T22:22:57Z)
Benchmarking Differentially Private Tabular Data Synthesis [21.320681813245525]
本稿では,異なるDPデータ合成手法を評価するためのベンチマークを提案する。評価の結果,現在の最先端手法には,有意義な実用効率トレードオフが存在することが明らかとなった。実験的な検証により各モジュールの詳細な分析を行い、異なる戦略の強みと限界に関する理論的洞察を提供する。
論文参考訳（メタデータ） (2025-04-18T20:27:23Z)
Leveraging Vertical Public-Private Split for Improved Synthetic Data Generation [9.819636361032256]
Differentially Private Synthetic Data Generationは、プライベートおよびセキュアなデータ共有を可能にする重要な手段である。最近の文献では、少量の公開データが合成データの質を高めるのに役立つシナリオを探求している。本稿では,水平的公共支援手法を垂直配置に適応させる新しい枠組みを提案する。
論文参考訳（メタデータ） (2025-04-15T08:59:03Z)
Federated Learning with Differential Privacy: An Utility-Enhanced Approach [12.614480013684759]
フェデレーション学習は、クライアントのデータを共有する必要性をなくすことによって、データのプライバシを保護するための魅力的なアプローチとして現れている。最近の研究では、フェデレートされた学習だけではプライバシーが保証されないことが示されている。本稿では,これらのバニラ微分プライベートアルゴリズムを,ハールウェーブレット変換ステップとノイズの分散を著しく低減する新しいノイズ注入方式に基づいて修正する。
論文参考訳（メタデータ） (2025-03-27T04:48:29Z)
Differentially Private Random Feature Model [52.468511541184895]
プライバシを保存するカーネルマシンに対して,差分的にプライベートな特徴モデルを作成する。本手法は,プライバシを保護し,一般化誤差を導出する。
論文参考訳（メタデータ） (2024-12-06T05:31:08Z)
Improving Grammatical Error Correction via Contextual Data Augmentation [49.746484518527716]
本研究では,文脈拡張に基づく合成データ構築手法を提案する。具体的には、ルールベースの置換とモデルベースの生成を組み合わせる。また,合成データにおけるノイズラベルの効果を軽減するために,レザベリングに基づくデータクリーニング手法を提案する。
論文参考訳（メタデータ） (2024-06-25T10:49:56Z)
Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文参考訳（メタデータ） (2024-06-18T08:38:59Z)
Benchmarking Private Population Data Release Mechanisms: Synthetic Data vs. TopDown [50.40020716418472]
本研究では、TopDownアルゴリズムとプライベート合成データ生成を比較し、クエリの複雑さによる精度への影響を判定する。この結果から,TopDownアルゴリズムは,分散クエリに対して,評価したどの合成データ手法よりもはるかに優れたプライバシー-忠実トレードオフを実現することがわかった。
論文参考訳（メタデータ） (2024-01-31T17:38:34Z)
Differentially Private Synthetic Data Using KD-Trees [11.96971298978997]
ノイズ摂動とともに空間分割技術を活用し,直観的かつ透過的なアルゴリズムを実現する。我々は、$epsilon$-differentially private synthesis data generationのためのデータ独立アルゴリズムとデータ依存アルゴリズムの両方を提案する。先行研究に対して実証的な実用性向上を示すとともに,実データセット上の下流分類タスクにおけるアルゴリズムの性能について考察する。
論文参考訳（メタデータ） (2023-06-19T17:08:32Z)
Achilles' Heels: Vulnerable Record Identification in Synthetic Data Publishing [9.061271587514215]
合成データパブリッシングのための原則付き脆弱なレコード識別手法を提案する。データセットやジェネレータ間で,従来のアドホック手法よりも優れていることを示す。合成データジェネレータを差分的にプライベートにすると、脆弱性のあるレコードを正確に識別できることが示される。
論文参考訳（メタデータ） (2023-06-17T09:42:46Z)
Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文参考訳（メタデータ） (2023-05-16T07:30:29Z)
Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文参考訳（メタデータ） (2022-11-07T10:02:55Z)
Bias Mitigated Learning from Differentially Private Synthetic Data: A Cautionary Tale [13.881022208028751]
バイアスは、合成データ分布が実データ分布の不整合推定であるため、すべての解析に影響を与える可能性がある。民営化確率比を用いた複数のバイアス緩和戦略を提案する。バイアス緩和は、合成データの一般的な応用に、シンプルで効果的なプライバシー準拠の強化をもたらすことを示す。
論文参考訳（メタデータ） (2021-08-24T19:56:44Z)
PEARL: Data Synthesis via Private Embeddings and Adversarial Reconstruction Learning [1.8692254863855962]
本稿では, 深層生成モデルを用いたデータ・フレームワークを, 差分的にプライベートな方法で提案する。当社のフレームワークでは、センシティブなデータは、厳格なプライバシ保証をワンショットで行うことで衛生化されています。提案手法は理論的に性能が保証され,複数のデータセットに対する経験的評価により,提案手法が適切なプライバシーレベルで他の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2021-06-08T18:00:01Z)
Differentially Private Federated Learning with Laplacian Smoothing [72.85272874099644]
フェデレートラーニングは、ユーザ間でプライベートデータを共有せずに、協調的にモデルを学習することで、データのプライバシを保護することを目的としている。敵は、リリースしたモデルを攻撃することによって、プライベートトレーニングデータを推測することができる。差別化プライバシは、トレーニングされたモデルの正確性や実用性を著しく低下させる価格で、このような攻撃に対する統計的保護を提供する。
論文参考訳（メタデータ） (2020-05-01T04:28:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。