論文の概要: Towards Biologically Plausible and Private Gene Expression Data
Generation
- arxiv url: http://arxiv.org/abs/2402.04912v1
- Date: Wed, 7 Feb 2024 14:39:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 15:18:17.479028
- Title: Towards Biologically Plausible and Private Gene Expression Data
Generation
- Title(参考訳): 生物学的に妥当かつプライベートな遺伝子発現データ生成に向けて
- Authors: Dingfan Chen, Marie Oestreich, Tejumade Afonja, Raouf Kerkouche,
Matthias Becker, Mario Fritz
- Abstract要約: 差分プライバシー(DP)で訓練された生成モデルは、下流アプリケーションのための合成データの作成において、ますます顕著になりつつある。
しかし、既存の文献は主に基本的なベンチマークデータセットに焦点を当てており、基本的なメトリクスと比較的単純なデータ分布にのみ有望な結果を報告する傾向にある。
本研究では,DP生成モデルが自然応用シナリオにおいてどのように機能するかを系統的に分析し,実世界の遺伝子発現データに焦点をあてる。
- 参考スコア(独自算出の注目度): 47.72947816788821
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative models trained with Differential Privacy (DP) are becoming
increasingly prominent in the creation of synthetic data for downstream
applications. Existing literature, however, primarily focuses on basic
benchmarking datasets and tends to report promising results only for elementary
metrics and relatively simple data distributions. In this paper, we initiate a
systematic analysis of how DP generative models perform in their natural
application scenarios, specifically focusing on real-world gene expression
data. We conduct a comprehensive analysis of five representative DP generation
methods, examining them from various angles, such as downstream utility,
statistical properties, and biological plausibility. Our extensive evaluation
illuminates the unique characteristics of each DP generation method, offering
critical insights into the strengths and weaknesses of each approach, and
uncovering intriguing possibilities for future developments. Perhaps
surprisingly, our analysis reveals that most methods are capable of achieving
seemingly reasonable downstream utility, according to the standard evaluation
metrics considered in existing literature. Nevertheless, we find that none of
the DP methods are able to accurately capture the biological characteristics of
the real dataset. This observation suggests a potential over-optimistic
assessment of current methodologies in this field and underscores a pressing
need for future enhancements in model design.
- Abstract(参考訳): ディファレンシャルプライバシ(dp)でトレーニングされた生成モデルは、下流アプリケーションのための合成データの作成においてますます顕著になりつつある。
しかし、既存の文献は主に基本的なベンチマークデータセットに焦点を当てており、基本的なメトリクスと比較的単純なデータ分布にのみ有望な結果を報告する傾向にある。
本稿では,DP生成モデルが自然応用シナリオでどのように機能するかを,実世界の遺伝子発現データを中心に体系的に分析する。
本稿では,5種類のDP生成手法を総合的に分析し,下流の実用性,統計特性,生物学的妥当性など,様々な角度から分析する。
提案手法は,DP生成法の特徴を照らし,各手法の強みと弱みに対する重要な洞察を与え,今後の発展への興味深い可能性を明らかにする。
おそらく意外なことに、既存の文献で検討されている標準評価基準によれば、ほとんどのメソッドが合理的な下流ユーティリティを実現することができるということがわかりました。
それにもかかわらず、DP手法のいずれも実際のデータセットの生物学的特性を正確に把握できないことがわかった。
この観察は、この分野における現在の方法論の過度な最適化評価の可能性を示し、将来のモデル設計の強化の必要性を強調している。
関連論文リスト
- Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - Heterogeneous Transfer Learning for Building High-Dimensional
Generalized Linear Models with Disparate Datasets [0.0]
本稿では,高次元一般化線形モデル構築のための伝達学習手法について述べる。
適応ラッソペナルティを用いることで、基礎となるパラメータ推定のオラクル特性がもたらされることを示す。
本稿では,5つの共通疾患に対するリスク予測モデルの開発に,提案手法のタイムリーな適用について述べる。
論文 参考訳(メタデータ) (2023-12-20T06:11:59Z) - Towards a more inductive world for drug repurposing approaches [0.545520830707066]
ドラッグ・ターゲット・インタラクション(DTI)の予測は、薬物再資源化において重要な課題である。
DTI予測法は一般化に欠け, インフレーション性能を損なうことを示す。
そこで本研究では, 生物学的に駆動される負のエッジサブサンプリングの戦略を提案し, 新たに発見された相互作用が真であることをin vitroで検証した。
論文 参考訳(メタデータ) (2023-11-21T15:28:44Z) - ProtoGate: Prototype-based Neural Networks with Local Feature Selection
for Tabular Biomedical Data [7.923088041693465]
本稿では, サンプル間の均一性と不均一性を両立させることにより, 誘導バイアスを導入するプロトタイプベースニューラルモデルProtoGateを提案する。
この結果から,データ中の同種パターンと異種パターンを利用することで予測精度が向上し,プロトタイプによる解釈可能性の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2023-06-21T15:17:39Z) - Synthetic data generation for a longitudinal cohort study -- Evaluation,
method extension and reproduction of published data analysis results [0.32593385688760446]
医療分野では、プライバシー上の懸念から個人レベルのデータへのアクセスは困難であることが多い。
有望な代替手段は、完全な合成データの生成である。
本研究では,最先端の合成データ生成手法を用いる。
論文 参考訳(メタデータ) (2023-05-12T13:13:55Z) - Epistemic Parity: Reproducibility as an Evaluation Metric for
Differential Privacy [9.755020926517291]
本稿では,プロキシタスクの表現性に関する仮定を回避した合成データの評価手法を提案する。
著者が合成データを使用した場合、公表された結論が変わる可能性を測定する。
我々は、より強力なユーティリティ保証を支持し、プライバシー保護を提供する新しい種類のメカニズムを提唱する。
論文 参考訳(メタデータ) (2022-08-26T14:57:21Z) - Delving into High-Quality Synthetic Face Occlusion Segmentation Datasets [83.749895930242]
そこで本研究では,高品質な自然主義的合成隠蔽顔を製造するための2つの手法を提案する。
両手法の有効性とロバスト性を実証的に示す。
我々は,RealOccとRealOcc-Wildという,微細なアノテーションを付加した高精細な実世界の顔データセットを2つ提示する。
論文 参考訳(メタデータ) (2022-05-12T17:03:57Z) - Artificial Text Detection via Examining the Topology of Attention Maps [58.46367297712477]
トポロジカルデータ分析(TDA)に基づく3種類の解釈可能なトポロジカル特徴を提案する。
BERTモデルから派生した特徴が3つの共通データセットにおいて、カウントベースとニューラルベースベースラインを最大10%上回っていることを実証的に示す。
特徴の探索解析は表面に対する感度と構文的性質を明らかにしている。
論文 参考訳(メタデータ) (2021-09-10T12:13:45Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。