Fugu-MT 論文翻訳(概要): Towards Biologically Plausible and Private Gene Expression Data Generation

論文の概要: Towards Biologically Plausible and Private Gene Expression Data Generation

arxiv url: http://arxiv.org/abs/2402.04912v1
Date: Wed, 7 Feb 2024 14:39:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-08 15:18:17.479028
Title: Towards Biologically Plausible and Private Gene Expression Data Generation
Title（参考訳）: 生物学的に妥当かつプライベートな遺伝子発現データ生成に向けて
Authors: Dingfan Chen, Marie Oestreich, Tejumade Afonja, Raouf Kerkouche, Matthias Becker, Mario Fritz
Abstract要約: 差分プライバシー(DP)で訓練された生成モデルは、下流アプリケーションのための合成データの作成において、ますます顕著になりつつある。しかし、既存の文献は主に基本的なベンチマークデータセットに焦点を当てており、基本的なメトリクスと比較的単純なデータ分布にのみ有望な結果を報告する傾向にある。本研究では,DP生成モデルが自然応用シナリオにおいてどのように機能するかを系統的に分析し,実世界の遺伝子発現データに焦点をあてる。
参考スコア（独自算出の注目度）: 47.72947816788821
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generative models trained with Differential Privacy (DP) are becoming increasingly prominent in the creation of synthetic data for downstream applications. Existing literature, however, primarily focuses on basic benchmarking datasets and tends to report promising results only for elementary metrics and relatively simple data distributions. In this paper, we initiate a systematic analysis of how DP generative models perform in their natural application scenarios, specifically focusing on real-world gene expression data. We conduct a comprehensive analysis of five representative DP generation methods, examining them from various angles, such as downstream utility, statistical properties, and biological plausibility. Our extensive evaluation illuminates the unique characteristics of each DP generation method, offering critical insights into the strengths and weaknesses of each approach, and uncovering intriguing possibilities for future developments. Perhaps surprisingly, our analysis reveals that most methods are capable of achieving seemingly reasonable downstream utility, according to the standard evaluation metrics considered in existing literature. Nevertheless, we find that none of the DP methods are able to accurately capture the biological characteristics of the real dataset. This observation suggests a potential over-optimistic assessment of current methodologies in this field and underscores a pressing need for future enhancements in model design.
Abstract（参考訳）: ディファレンシャルプライバシ(dp)でトレーニングされた生成モデルは、下流アプリケーションのための合成データの作成においてますます顕著になりつつある。しかし、既存の文献は主に基本的なベンチマークデータセットに焦点を当てており、基本的なメトリクスと比較的単純なデータ分布にのみ有望な結果を報告する傾向にある。本稿では,DP生成モデルが自然応用シナリオでどのように機能するかを,実世界の遺伝子発現データを中心に体系的に分析する。本稿では,5種類のDP生成手法を総合的に分析し,下流の実用性,統計特性,生物学的妥当性など,様々な角度から分析する。提案手法は,DP生成法の特徴を照らし,各手法の強みと弱みに対する重要な洞察を与え,今後の発展への興味深い可能性を明らかにする。おそらく意外なことに、既存の文献で検討されている標準評価基準によれば、ほとんどのメソッドが合理的な下流ユーティリティを実現することができるということがわかりました。それにもかかわらず、DP手法のいずれも実際のデータセットの生物学的特性を正確に把握できないことがわかった。この観察は、この分野における現在の方法論の過度な最適化評価の可能性を示し、将来のモデル設計の強化の必要性を強調している。

関連論文リスト

Integrating Genomics into Multimodal EHR Foundation Models [56.31910745104141]
本稿では,ポリジェニックリスクスコア(PRS)を基本データモダリティとして統合した,革新的なEHR基盤モデルを提案する。このフレームワークは、臨床データと遺伝子前置詞の複雑な関係を学習することを目的としている。このアプローチは、病気の予測、積極的な健康管理、リスク階層化、パーソナライズされた治療戦略に対する新たな洞察を解放するために重要である。
論文参考訳（メタデータ） (2025-10-24T15:56:40Z)
Counterfactual Probabilistic Diffusion with Expert Models [44.96279296893773]
本稿では,不完全な専門家モデルからのガイダンスを取り入れた時系列拡散に基づくフレームワークを提案する。我々の方法であるODE-Diffは、機械的およびデータ駆動的なアプローチをブリッジし、より信頼性が高く解釈可能な因果推論を可能にする。
論文参考訳（メタデータ） (2025-08-18T20:44:32Z)
Comparing Methods for Bias Mitigation in Graph Neural Networks [5.256237513030105]
本稿では,生成人工知能(GenAI)のためのデータ準備において,グラフニューラルネットワーク(GNN)が果たす重要な役割について考察する。本稿では,データスペーシフィケーション,特徴修正,合成データ拡張という,3つの異なるバイアス緩和手法の比較分析を行った。
論文参考訳（メタデータ） (2025-03-28T16:18:48Z)
Artificial Inductive Bias for Synthetic Tabular Data Generation in Data-Scarce Scenarios [8.062368743143388]
人工的帰納バイアスを生成プロセスに統合し,データ品質を向上させる手法を提案する。我々は、事前学習、モデル平均化、モデル非依存メタラーニング(MAML)、ドメイン探索(DRS)の4つのアプローチを評価し、生成したテキストの品質への影響を分析する。実験結果から,帰納的バイアスを取り入れることで,メタラーニングよりも優れた伝達学習法が実現された。
論文参考訳（メタデータ） (2024-07-03T12:53:42Z)
Emerging-properties Mapping Using Spatial Embedding Statistics: EMUSES [0.0]
EMUSESは、データ内の潜伏構造を明らかにする高次元埋め込みを作成する革新的なアプローチである。予測精度と解釈可能性のギャップを埋めることで、EMUSESは複雑な現象の多因子的起源を理解する強力なツールを提供する。
論文参考訳（メタデータ） (2024-06-20T13:39:14Z)
Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models [69.06149482021071]
EHRPDと呼ばれる新しいEHRデータ生成モデルを提案する。時間間隔推定を組み込んだ拡散モデルである。我々は2つの公開データセットで実験を行い、忠実さ、プライバシー、実用性の観点からEPHPDを評価する。
論文参考訳（メタデータ） (2024-06-20T02:20:23Z)
GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。 GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文参考訳（メタデータ） (2024-06-01T08:01:05Z)
Seeing Unseen: Discover Novel Biomedical Concepts via Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文参考訳（メタデータ） (2024-03-02T00:56:05Z)
Heterogeneous Transfer Learning for Building High-Dimensional Generalized Linear Models with Disparate Datasets [0.0]
本稿では,高次元一般化線形モデル構築のための伝達学習手法について述べる。我々は、すべての予測器に関する詳細な情報と、より限定された予測器のセットを持つ、より大きい、潜在的にはるかに大きな研究データを用いて、主研究からのデータを使用します。
論文参考訳（メタデータ） (2023-12-20T06:11:59Z)
Geometric Deep Learning for Structure-Based Drug Design: A Survey [83.87489798671155]
構造に基づく薬物設計(SBDD)は、タンパク質の3次元幾何学を利用して、潜在的な薬物候補を特定する。近年の幾何学的深層学習の進歩は、3次元幾何学的データを効果的に統合・処理し、この分野を前進させてきた。
論文参考訳（メタデータ） (2023-06-20T14:21:58Z)
Synthetic data generation for a longitudinal cohort study -- Evaluation, method extension and reproduction of published data analysis results [0.32593385688760446]
医療分野では、プライバシー上の懸念から個人レベルのデータへのアクセスは困難であることが多い。有望な代替手段は、完全な合成データの生成である。本研究では,最先端の合成データ生成手法を用いる。
論文参考訳（メタデータ） (2023-05-12T13:13:55Z)
Artificial Text Detection via Examining the Topology of Attention Maps [58.46367297712477]
トポロジカルデータ分析(TDA)に基づく3種類の解釈可能なトポロジカル特徴を提案する。 BERTモデルから派生した特徴が3つの共通データセットにおいて、カウントベースとニューラルベースベースラインを最大10%上回っていることを実証的に示す。特徴の探索解析は表面に対する感度と構文的性質を明らかにしている。
論文参考訳（メタデータ） (2021-09-10T12:13:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。