論文の概要: PrivGen: Preserving Privacy of Sequences Through Data Generation
- arxiv url: http://arxiv.org/abs/2002.09834v1
- Date: Sun, 23 Feb 2020 05:43:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 09:54:25.946175
- Title: PrivGen: Preserving Privacy of Sequences Through Data Generation
- Title(参考訳): PrivGen: データ生成によるシーケンスのプライバシ保護
- Authors: Sigal Shaked, Lior Rokach
- Abstract要約: シークエンシャルデータは、研究の基盤として機能し、プロセスの改善につながる可能性がある。
このようなデータへのアクセスと利用は、通常、ユーザーのプライバシーを侵害する懸念のために制限されるか、まったく許可されない。
そこで我々はPrivGenを提案する。PrivGenは、ソースデータのパターンと特徴を保守するデータを生成する革新的な方法である。
- 参考スコア(独自算出の注目度): 14.579475552088688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequential data is everywhere, and it can serve as a basis for research that
will lead to improved processes. For example, road infrastructure can be
improved by identifying bottlenecks in GPS data, or early diagnosis can be
improved by analyzing patterns of disease progression in medical data. The main
obstacle is that access and use of such data is usually limited or not
permitted at all due to concerns about violating user privacy, and rightly so.
Anonymizing sequence data is not a simple task, since a user creates an almost
unique signature over time. Existing anonymization methods reduce the quality
of information in order to maintain the level of anonymity required. Damage to
quality may disrupt patterns that appear in the original data and impair the
preservation of various characteristics. Since in many cases the researcher
does not need the data as is and instead is only interested in the patterns
that exist in the data, we propose PrivGen, an innovative method for generating
data that maintains patterns and characteristics of the source data. We
demonstrate that the data generation mechanism significantly limits the risk of
privacy infringement. Evaluating our method with real-world datasets shows that
its generated data preserves many characteristics of the data, including the
sequential model, as trained based on the source data. This suggests that the
data generated by our method could be used in place of actual data for various
types of analysis, maintaining user privacy and the data's integrity at the
same time.
- Abstract(参考訳): シーケンシャルなデータは至るところで存在し、プロセスの改善につながる研究の基礎として機能することができる。
例えば、GPSデータのボトルネックを特定して道路インフラを改善したり、医療データにおける病気の進行パターンを分析して早期診断を改善することができる。
主な障害は、ユーザーのプライバシーを侵害する懸念があるため、そのようなデータへのアクセスと利用は、通常制限されるか、まったく許可されない。
シーケンスデータの匿名化は、ユーザが時間とともにほとんどユニークなシグネチャを生成するため、単純なタスクではない。
既存の匿名化手法は、必要な匿名性のレベルを維持するために情報の質を低下させる。
品質の損傷は、元のデータに現れるパターンを乱し、様々な特性の保存を損なう可能性がある。
多くの場合、研究者はデータを必要としず、データに存在するパターンのみに関心を持つため、ソースデータのパターンと特性を維持するデータを生成するための革新的な方法であるprivgenを提案する。
データ生成機構がプライバシー侵害のリスクを著しく制限していることを実証する。
本手法を実世界のデータセットで評価した結果,生成したデータは,ソースデータに基づいてトレーニングされた逐次モデルを含むデータの特徴を保存できることがわかった。
このことから,本手法が生成するデータは,ユーザのプライバシとデータの完全性を同時に維持しつつ,分析の多種多様なデータの代わりに使用できることが示唆された。
関連論文リスト
- Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - Tabular Data Synthesis with Differential Privacy: A Survey [24.500349285858597]
データ共有はコラボレーティブなイノベーションの前提条件であり、さまざまなデータセットを活用して深い洞察を得ることを可能にします。
データ合成は、実際のデータの統計特性を保存する人工データセットを生成することで、この問題に対処する。
プライバシーに配慮したデータ共有に対する、有望なアプローチとして、異なるプライベートなデータ合成が登場している。
論文 参考訳(メタデータ) (2024-11-04T06:32:48Z) - Federated Learning Empowered by Generative Content [55.576885852501775]
フェデレートラーニング(FL)は、プライバシ保護方法でモデルのトレーニングに分散プライベートデータを活用可能にする。
本稿では,FedGCと呼ばれる新しいFLフレームワークを提案する。
我々は、さまざまなベースライン、データセット、シナリオ、モダリティをカバーする、FedGCに関する体系的な実証的研究を行う。
論文 参考訳(メタデータ) (2023-12-10T07:38:56Z) - Conditional Density Estimations from Privacy-Protected Data [0.0]
プライバシ保護されたデータセットからのシミュレーションに基づく推論手法を提案する。
本稿では,感染性疾患モデルと通常の線形回帰モデルに基づく個別時系列データについて述べる。
論文 参考訳(メタデータ) (2023-10-19T14:34:17Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving
Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。
本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文 参考訳(メタデータ) (2023-07-04T18:37:11Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Differentially Private Synthetic Medical Data Generation using
Convolutional GANs [7.2372051099165065]
R'enyiの差分プライバシーを用いた合成データ生成のための差分プライベートフレームワークを開発する。
提案手法は, 畳み込み自己エンコーダと畳み込み生成対向ネットワークを利用して, 生成した合成データの重要な特性をある程度保存する。
私たちのモデルは、同じプライバシー予算の下で既存の最新モデルを上回ることを実証します。
論文 参考訳(メタデータ) (2020-12-22T01:03:49Z) - Hide-and-Seek Privacy Challenge [88.49671206936259]
NeurIPS 2020 Hide-and-Seek Privacy Challengeは、両方の問題を解決するための新しい2トラックの競争だ。
我々の頭から頭までのフォーマットでは、新しい高品質な集中ケア時系列データセットを用いて、合成データ生成トラック(「ヒッシャー」)と患者再識別トラック(「シーカー」)の参加者が直接対決する。
論文 参考訳(メタデータ) (2020-07-23T15:50:59Z) - P3GM: Private High-Dimensional Data Release via Privacy Preserving
Phased Generative Model [23.91327154831855]
本稿では,プライバシ保護型位相生成モデル(P3GM)を提案する。
P3GMは2段階の学習プロセスを採用し、ノイズに対して堅牢にし、学習効率を向上させる。
最先端の手法と比較して、生成したサンプルはノイズが少なく、データ多様性の観点からも元のデータに近いように見える。
論文 参考訳(メタデータ) (2020-06-22T09:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。