Fugu-MT 論文翻訳(概要): Generating Higher-Fidelity Synthetic Datasets with Privacy Guarantees

論文の概要: Generating Higher-Fidelity Synthetic Datasets with Privacy Guarantees

arxiv url: http://arxiv.org/abs/2003.00997v1
Date: Mon, 2 Mar 2020 16:23:41 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-27 03:54:13.136831
Title: Generating Higher-Fidelity Synthetic Datasets with Privacy Guarantees
Title（参考訳）: プライバシ保証による高忠実度合成データセットの生成
Authors: Aleksei Triastcyn, Boi Faltings
Abstract要約: データアノテーションやインスペクションなど,一般的な機械学習開発タスクにおけるユーザのプライバシ向上の課題を考察する。我々はベイズ微分プライバシーを、より優れたプライバシー利用トレードオフを提供しながら厳密な理論的保証を達成する手段として採用することを提案する。
参考スコア（独自算出の注目度）: 34.01962235805095
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper considers the problem of enhancing user privacy in common machine learning development tasks, such as data annotation and inspection, by substituting the real data with samples form a generative adversarial network. We propose employing Bayesian differential privacy as the means to achieve a rigorous theoretical guarantee while providing a better privacy-utility trade-off. We demonstrate experimentally that our approach produces higher-fidelity samples, compared to prior work, allowing to (1) detect more subtle data errors and biases, and (2) reduce the need for real data labelling by achieving high accuracy when training directly on artificial samples.
Abstract（参考訳）: 本稿では,データアノテーションやインスペクションといった一般的な機械学習開発タスクにおいて,実データをサンプルで置換することで,ユーザのプライバシを高める問題を検討する。ベイズ微分プライバシーを厳密な理論保証を実現する手段として利用し、より優れたプライバシー利用トレードオフを提供する。本手法は,先行研究に比べて忠実度の高いサンプルを生成できることを実証し,(1)微妙なデータ誤りやバイアスの検出を可能にし,(2)人工サンプルで直接トレーニングする場合の精度を高めることで,実際のデータラベリングの必要性を低減できることを示した。

関連論文リスト

A Privacy-Preserving Data Collection Method for Diversified Statistical Analysis [11.135689359531105]
本稿では, リアルタイム情報収集分野において, RVNS と呼ばれる新しい実値負のサーベイモデルを提案する。 RVNSモデルは、データを識別する必要性からユーザーを除外し、実際の機密情報から逸脱した範囲からデータ一式をサンプリングすることのみを要求する。
論文参考訳（メタデータ） (2025-07-23T04:05:33Z)
Unlocking Post-hoc Dataset Inference with Synthetic Data [11.886166976507711]
トレーニングデータセットは、データ所有者の知的財産権を尊重することなく、しばしばインターネットから取り除かれる。推論(DI)は、被疑者データセットがトレーニングに使用されたかどうかを特定することで潜在的な治療を提供する。既存のDIメソッドでは、妥協したデータセットの分布と密接に一致するトレーニングを欠くために、プライベートな設定を必要とします。本研究では,必要なホールドアウト集合を合成的に生成することで,この問題に対処する。
論文参考訳（メタデータ） (2025-06-18T08:46:59Z)
DP-CDA: An Algorithm for Enhanced Privacy Preservation in Dataset Synthesis Through Randomized Mixing [0.8739101659113155]
有効なデータパブリッシングアルゴリズムであるemphDP-CDAを導入する。提案アルゴリズムは、クラス固有の方法でデータをランダムに混合し、プライバシー保証を確保するために慎重に調整されたランダム性を誘導することにより、合成データセットを生成する。以上の結果から,DP-CDAを用いた合成データセットは,同一のプライバシー要件下であっても,従来のデータパブリッシングアルゴリズムで生成したデータセットよりも優れた実用性が得られることが示唆された。
論文参考訳（メタデータ） (2024-11-25T06:14:06Z)
Empirical Privacy Evaluations of Generative and Predictive Machine Learning Models -- A review and challenges for practice [0.3069335774032178]
生成技術を展開する前に、生成した合成データに関連するプライバシーリスクを実証的に評価することが重要である。本稿では,機械学習に基づく生成および予測モデルにおける経験的プライバシ評価の基礎となる概念と前提について概説する。
論文参考訳（メタデータ） (2024-11-19T12:19:28Z)
Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文参考訳（メタデータ） (2024-11-04T21:27:06Z)
Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。 RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文参考訳（メタデータ） (2024-06-20T22:53:09Z)
Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文参考訳（メタデータ） (2023-07-04T18:37:11Z)
On the Universal Adversarial Perturbations for Efficient Data-free Adversarial Detection [55.73320979733527]
本稿では,UAPに対して正常サンプルと逆サンプルの異なる応答を誘導する,データに依存しない逆検出フレームワークを提案する。実験結果から,本手法は様々なテキスト分類タスクにおいて,競合検出性能を実現することが示された。
論文参考訳（メタデータ） (2023-06-27T02:54:07Z)
Towards Generalizable Data Protection With Transferable Unlearnable Examples [50.628011208660645]
本稿では、転送不可能な例を生成することによって、新しい一般化可能なデータ保護手法を提案する。私たちの知る限りでは、これはデータ分散の観点からデータのプライバシを調べる最初のソリューションです。
論文参考訳（メタデータ） (2023-05-18T04:17:01Z)
Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文参考訳（メタデータ） (2022-11-07T10:02:55Z)
Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文参考訳（メタデータ） (2021-02-09T20:28:35Z)
P3GM: Private High-Dimensional Data Release via Privacy Preserving Phased Generative Model [23.91327154831855]
本稿では,プライバシ保護型位相生成モデル(P3GM)を提案する。 P3GMは2段階の学習プロセスを採用し、ノイズに対して堅牢にし、学習効率を向上させる。最先端の手法と比較して、生成したサンプルはノイズが少なく、データ多様性の観点からも元のデータに近いように見える。
論文参考訳（メタデータ） (2020-06-22T09:47:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。