論文の概要: Towards Biologically Plausible and Private Gene Expression Data
Generation
- arxiv url: http://arxiv.org/abs/2402.04912v1
- Date: Wed, 7 Feb 2024 14:39:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 15:18:17.479028
- Title: Towards Biologically Plausible and Private Gene Expression Data
Generation
- Title(参考訳): 生物学的に妥当かつプライベートな遺伝子発現データ生成に向けて
- Authors: Dingfan Chen, Marie Oestreich, Tejumade Afonja, Raouf Kerkouche,
Matthias Becker, Mario Fritz
- Abstract要約: 差分プライバシー(DP)で訓練された生成モデルは、下流アプリケーションのための合成データの作成において、ますます顕著になりつつある。
しかし、既存の文献は主に基本的なベンチマークデータセットに焦点を当てており、基本的なメトリクスと比較的単純なデータ分布にのみ有望な結果を報告する傾向にある。
本研究では,DP生成モデルが自然応用シナリオにおいてどのように機能するかを系統的に分析し,実世界の遺伝子発現データに焦点をあてる。
- 参考スコア(独自算出の注目度): 47.72947816788821
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative models trained with Differential Privacy (DP) are becoming
increasingly prominent in the creation of synthetic data for downstream
applications. Existing literature, however, primarily focuses on basic
benchmarking datasets and tends to report promising results only for elementary
metrics and relatively simple data distributions. In this paper, we initiate a
systematic analysis of how DP generative models perform in their natural
application scenarios, specifically focusing on real-world gene expression
data. We conduct a comprehensive analysis of five representative DP generation
methods, examining them from various angles, such as downstream utility,
statistical properties, and biological plausibility. Our extensive evaluation
illuminates the unique characteristics of each DP generation method, offering
critical insights into the strengths and weaknesses of each approach, and
uncovering intriguing possibilities for future developments. Perhaps
surprisingly, our analysis reveals that most methods are capable of achieving
seemingly reasonable downstream utility, according to the standard evaluation
metrics considered in existing literature. Nevertheless, we find that none of
the DP methods are able to accurately capture the biological characteristics of
the real dataset. This observation suggests a potential over-optimistic
assessment of current methodologies in this field and underscores a pressing
need for future enhancements in model design.
- Abstract(参考訳): ディファレンシャルプライバシ(dp)でトレーニングされた生成モデルは、下流アプリケーションのための合成データの作成においてますます顕著になりつつある。
しかし、既存の文献は主に基本的なベンチマークデータセットに焦点を当てており、基本的なメトリクスと比較的単純なデータ分布にのみ有望な結果を報告する傾向にある。
本稿では,DP生成モデルが自然応用シナリオでどのように機能するかを,実世界の遺伝子発現データを中心に体系的に分析する。
本稿では,5種類のDP生成手法を総合的に分析し,下流の実用性,統計特性,生物学的妥当性など,様々な角度から分析する。
提案手法は,DP生成法の特徴を照らし,各手法の強みと弱みに対する重要な洞察を与え,今後の発展への興味深い可能性を明らかにする。
おそらく意外なことに、既存の文献で検討されている標準評価基準によれば、ほとんどのメソッドが合理的な下流ユーティリティを実現することができるということがわかりました。
それにもかかわらず、DP手法のいずれも実際のデータセットの生物学的特性を正確に把握できないことがわかった。
この観察は、この分野における現在の方法論の過度な最適化評価の可能性を示し、将来のモデル設計の強化の必要性を強調している。
関連論文リスト
- Emerging-properties Mapping Using Spatial Embedding Statistics: EMUSES [0.0]
EMUSESは、データ内の潜伏構造を明らかにする高次元埋め込みを作成する革新的なアプローチである。
予測精度と解釈可能性のギャップを埋めることで、EMUSESは複雑な現象の多因子的起源を理解する強力なツールを提供する。
論文 参考訳(メタデータ) (2024-06-20T13:39:14Z) - Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models [69.06149482021071]
EHRPDと呼ばれる新しいEHRデータ生成モデルを提案する。
時間間隔推定を組み込んだ拡散モデルである。
我々は2つの公開データセットで実験を行い、忠実さ、プライバシー、実用性の観点からEPHPDを評価する。
論文 参考訳(メタデータ) (2024-06-20T02:20:23Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Heterogeneous Transfer Learning for Building High-Dimensional Generalized Linear Models with Disparate Datasets [0.0]
本稿では,高次元一般化線形モデル構築のための伝達学習手法について述べる。
我々は、すべての予測器に関する詳細な情報と、より限定された予測器のセットを持つ、より大きい、潜在的にはるかに大きな研究データを用いて、主研究からのデータを使用します。
論文 参考訳(メタデータ) (2023-12-20T06:11:59Z) - Geometric Deep Learning for Structure-Based Drug Design: A Survey [83.87489798671155]
構造に基づく薬物設計(SBDD)は、タンパク質の3次元幾何学を利用して、潜在的な薬物候補を特定する。
近年の幾何学的深層学習の進歩は、3次元幾何学的データを効果的に統合・処理し、この分野を前進させてきた。
論文 参考訳(メタデータ) (2023-06-20T14:21:58Z) - Synthetic data generation for a longitudinal cohort study -- Evaluation,
method extension and reproduction of published data analysis results [0.32593385688760446]
医療分野では、プライバシー上の懸念から個人レベルのデータへのアクセスは困難であることが多い。
有望な代替手段は、完全な合成データの生成である。
本研究では,最先端の合成データ生成手法を用いる。
論文 参考訳(メタデータ) (2023-05-12T13:13:55Z) - Artificial Text Detection via Examining the Topology of Attention Maps [58.46367297712477]
トポロジカルデータ分析(TDA)に基づく3種類の解釈可能なトポロジカル特徴を提案する。
BERTモデルから派生した特徴が3つの共通データセットにおいて、カウントベースとニューラルベースベースラインを最大10%上回っていることを実証的に示す。
特徴の探索解析は表面に対する感度と構文的性質を明らかにしている。
論文 参考訳(メタデータ) (2021-09-10T12:13:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。