論文の概要: Privacy-hardened and hallucination-resistant synthetic data generation with logic-solvers
- arxiv url: http://arxiv.org/abs/2410.16705v1
- Date: Tue, 22 Oct 2024 05:20:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:30:57.757420
- Title: Privacy-hardened and hallucination-resistant synthetic data generation with logic-solvers
- Title(参考訳): 論理解法を用いたプライバシ硬化・幻覚耐性合成データ生成
- Authors: Mark A. Burgess, Brendan Hosking, Roc Reguant, Anubhav Kaphle, Mitchell J. O'Brien, Letitia M. F. Sng, Yatish Jain, Denis C. Bauer,
- Abstract要約: 我々は,論理解法(SATソルバ)であるGenomatorを導入し,元のデータのプライベートかつ現実的な表現を効率的に生成する。
本稿では、最も複雑かつプライベートな情報であるゲノムデータについて示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Machine-generated data is a valuable resource for training Artificial Intelligence algorithms, evaluating rare workflows, and sharing data under stricter data legislations. The challenge is to generate data that is accurate and private. Current statistical and deep learning methods struggle with large data volumes, are prone to hallucinating scenarios incompatible with reality, and seldom quantify privacy meaningfully. Here we introduce Genomator, a logic solving approach (SAT solving), which efficiently produces private and realistic representations of the original data. We demonstrate the method on genomic data, which arguably is the most complex and private information. Synthetic genomes hold great potential for balancing underrepresented populations in medical research and advancing global data exchange. We benchmark Genomator against state-of-the-art methodologies (Markov generation, Restricted Boltzmann Machine, Generative Adversarial Network and Conditional Restricted Boltzmann Machines), demonstrating an 84-93% accuracy improvement and 95-98% higher privacy. Genomator is also 1000-1600 times more efficient, making it the only tested method that scales to whole genomes. We show the universal trade-off between privacy and accuracy, and use Genomator's tuning capability to cater to all applications along the spectrum, from provable private representations of sensitive cohorts, to datasets with indistinguishable pharmacogenomic profiles. Demonstrating the production-scale generation of tuneable synthetic data can increase trust and pave the way into the clinic.
- Abstract(参考訳): マシン生成データは、人工知能アルゴリズムのトレーニング、まれなワークフローの評価、厳格なデータ規制下でのデータ共有に有用なリソースである。
課題は、正確でプライベートなデータを生成することです。
現在の統計学と深層学習の方法は大規模なデータ量に苦しむが、現実と相容れないシナリオを幻覚させる傾向があり、プライバシーを有意義に定量化することはめったにない。
ここでは、論理解法(SATソルバ)であるGenomatorを紹介し、元のデータのプライベートかつリアルな表現を効率よく生成する。
本稿では、最も複雑かつプライベートな情報であるゲノムデータについて示す。
合成ゲノムは、医学研究やグローバルなデータ交換の進展において、人口不足のバランスをとる大きな可能性を秘めている。
我々はGenomatorを最先端の方法論(Markov生成、Restricted Boltzmann Machine、Generative Adversarial Network、Conditional Restricted Boltzmann Machines)に対してベンチマークし、84-93%の精度改善と95-98%のプライバシーを実証した。
ジェノミエーターは1000-1600倍効率が高く、全ゲノムにスケールする唯一の検査方法である。
プライバシと精度の共通的なトレードオフを示し、Genomatorのチューニング機能を使用して、機密性のあるコホートの証明可能なプライベート表現から、識別不能な薬理ゲノムプロファイルを持つデータセットまで、スペクトル上のすべてのアプリケーションに対応します。
調整可能な合成データの生産規模を実証することで、信頼性を高め、クリニックへの道を開くことができる。
関連論文リスト
- Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Synthetic data generation for a longitudinal cohort study -- Evaluation,
method extension and reproduction of published data analysis results [0.32593385688760446]
医療分野では、プライバシー上の懸念から個人レベルのデータへのアクセスは困難であることが多い。
有望な代替手段は、完全な合成データの生成である。
本研究では,最先端の合成データ生成手法を用いる。
論文 参考訳(メタデータ) (2023-05-12T13:13:55Z) - Differentially Private Synthetic Data Generation via
Lipschitz-Regularised Variational Autoencoders [3.7463972693041274]
生成モデルが個々のトレーニング記録の多くの詳細を記憶する傾向があることは、しばしば見落とされがちである。
本稿では,生成モデルにおける本質を直接活用するデータ生成手法について検討する。
論文 参考訳(メタデータ) (2023-04-22T07:24:56Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Enabling Synthetic Data adoption in regulated domains [1.9512796489908306]
Model-CentricからData-Centricへの転換は、アルゴリズムよりもデータとその品質に重点を置いている。
特に、高度に規制されたシナリオにおける情報のセンシティブな性質を考慮する必要がある。
このようなコンウンドラムをバイパスする巧妙な方法は、生成プロセスから得られたデータであるSynthetic Dataに依存し、実際のデータプロパティを学習する。
論文 参考訳(メタデータ) (2022-04-13T10:53:54Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Fidelity and Privacy of Synthetic Medical Data [0.0]
医療記録のデジタル化は、新時代のビッグデータから臨床科学へとつながった。
個々のレベルの医療データを共有する必要性は増え続けており、これ以上緊急ではない。
ビッグデータの利用に対する熱意は、患者の自律性とプライバシに対する完全な適切な懸念によって誘惑された。
論文 参考訳(メタデータ) (2021-01-18T23:01:27Z) - Differentially Private Synthetic Medical Data Generation using
Convolutional GANs [7.2372051099165065]
R'enyiの差分プライバシーを用いた合成データ生成のための差分プライベートフレームワークを開発する。
提案手法は, 畳み込み自己エンコーダと畳み込み生成対向ネットワークを利用して, 生成した合成データの重要な特性をある程度保存する。
私たちのモデルは、同じプライバシー予算の下で既存の最新モデルを上回ることを実証します。
論文 参考訳(メタデータ) (2020-12-22T01:03:49Z) - GS-WGAN: A Gradient-Sanitized Approach for Learning Differentially
Private Generators [74.16405337436213]
我々は、GS-WGAN(Gradient-sanitized Wasserstein Generative Adrial Networks)を提案する。
GS-WGANは、厳格なプライバシー保証を備えた機密データの衛生的な形式での公開を可能にする。
このアプローチは、複数のメトリクスにわたる最先端のアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2020-06-15T10:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。