論文の概要: VECT-GAN: A variationally encoded generative model for overcoming data scarcity in pharmaceutical science
- arxiv url: http://arxiv.org/abs/2501.08995v1
- Date: Wed, 15 Jan 2025 18:23:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:51:58.283159
- Title: VECT-GAN: A variationally encoded generative model for overcoming data scarcity in pharmaceutical science
- Title(参考訳): VECT-GAN: 医薬品科学におけるデータ不足を克服する変異符号化生成モデル
- Authors: Youssef Abdalla, Marrisa Taub, Eleanor Hilton, Priya Akkaraju, Alexander Milanovic, Mine Orlu, Abdul W. Basit, Michael T Cook, Tapabrata Chakraborty, David Shorthouse,
- Abstract要約: 既存のデータセットは小さく、ノイズが多いため、有効性は制限されることが多い。
我々は、小型でノイズの多いデータセットを増強するために特別に設計された生成モデルを開発する。
我々は,PipパッケージとしてChEMBLで事前訓練したVECT GANを含む手法を開発した。
- 参考スコア(独自算出の注目度): 32.73124984242397
- License:
- Abstract: Data scarcity in pharmaceutical research has led to reliance on labour-intensive trial and error approaches for development rather than data driven methods. While Machine Learning offers a solution, existing datasets are often small and noisy, limiting their utility. To address this, we developed a Variationally Encoded Conditional Tabular Generative Adversarial Network (VECT GAN), a novel generative model specifically designed for augmenting small, noisy datasets. We introduce a pipeline where data is augmented before regression model development and demonstrate that this consistently and significantly improves performance over other state of the art tabular generative models. We apply this pipeline across six pharmaceutical datasets, and highlight its real-world applicability by developing novel polymers with medically desirable mucoadhesive properties, which we made and experimentally characterised. Additionally, we pre-train the model on the ChEMBL database of drug-like molecules, leveraging knowledge distillation to enhance its generalisability, making it readily available for use on pharmaceutical datasets containing small molecules, which is an extremely common pharmaceutical task. We demonstrate the power of synthetic data for regularising small tabular datasets, highlighting its potential to become standard practice in pharmaceutical model development, and make our method, including VECT GAN pretrained on ChEMBL available as a pip package.
- Abstract(参考訳): 医薬品研究におけるデータ不足は、データ駆動方式ではなく、労働集約的な試行と開発のためのエラーアプローチに依存している。
機械学習はソリューションを提供するが、既存のデータセットは小さく、ノイズが多く、実用性に制限がある。
そこで我々は,小型で雑音の多いデータセットを増大させる新しい生成モデルである,変分符号化された条件付きタブララ生成適応ネットワーク (VECT GAN) を開発した。
回帰モデル開発の前にデータが拡張されるパイプラインを導入し、これが他の最先端のグラフ生成モデルよりも一貫して、大幅にパフォーマンスを向上することを示す。
このパイプラインを6つの医薬データセットに適用し、医用的に望ましい粘着性を有する新規ポリマーを開発し、実世界の応用性を強調した。
さらに, 医薬品系分子のChEMBLデータベース上でのモデルを事前学習し, 知識蒸留を利用してその一般性を高め, 小分子を含む医薬データセットで容易に利用できるようにした。
我々は,小さな表形式のデータセットを正規化するための合成データのパワーを実証し,医薬品モデル開発における標準的実践の可能性を強調し,ChEMBLで事前訓練されたVECT GANをチップパッケージとして利用できるようにした。
関連論文リスト
- Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models [69.06149482021071]
EHRPDと呼ばれる新しいEHRデータ生成モデルを提案する。
時間間隔推定を組み込んだ拡散モデルである。
我々は2つの公開データセットで実験を行い、忠実さ、プライバシー、実用性の観点からEPHPDを評価する。
論文 参考訳(メタデータ) (2024-06-20T02:20:23Z) - Synthetic Data from Diffusion Models Improve Drug Discovery Prediction [1.3686993145787065]
データあいまいさは、重要な研究課題に答えようとする研究者にとって、データのキュレーションを難しくする。
本稿では,リガンドおよび薬物動態データをエンドツーエンドに生成できる新しい拡散GNNモデルSyngandを提案する。
我々は,AqSolDB,LD50,hERGを中心とした下流回帰タスクにおいて,Syngand生成した合成目標データの有効性について,最初の有望な結果を示した。
論文 参考訳(メタデータ) (2024-05-06T19:09:37Z) - Discovering intrinsic multi-compartment pharmacometric models using Physics Informed Neural Networks [0.0]
我々は、純粋にデータ駆動型ニューラルネットワークモデルであるPKINNを紹介する。
PKINNは、本質的なマルチコンパートメントベースの薬理学構造を効率的に発見し、モデル化する。
得られたモデルは、シンボリック回帰法によって解釈可能であり、説明可能である。
論文 参考訳(メタデータ) (2024-04-30T19:31:31Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - From Artificially Real to Real: Leveraging Pseudo Data from Large
Language Models for Low-Resource Molecule Discovery [35.5507452011217]
分子発見のためのクロスモーダル技術は、しばしばデータ不足の問題に遭遇し、その性能と応用を妨げる。
我々は,高品質な擬似データを構築するための検索ベースのプロンプト戦略を導入し,この擬似データを効果的に活用するための最適手法を探る。
実験により、ドメイン適応のための擬似データの使用は、既存のすべてのメソッドより優れており、モデルスケールが小さく、データサイズが小さく、トレーニングコストも低いことが示されている。
論文 参考訳(メタデータ) (2023-09-11T02:35:36Z) - Drug Discovery under Covariate Shift with Domain-Informed Prior
Distributions over Functions [30.305418761024143]
実世界の薬物発見タスクは、しばしばラベル付きデータの不足とかなりの範囲のデータによって特徴づけられる。
我々は、データ生成プロセスの明示的な事前知識を事前分布にエンコードする原理的な方法を提案する。
我々は,Q-SAVIを組み込んで,事前知識のような化学空間をモデリングプロセスに組み込むことで,相当な精度と校正が可能であることを実証した。
論文 参考訳(メタデータ) (2023-07-14T05:01:10Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Synthesizing Mixed-type Electronic Health Records using Diffusion Models [10.973115905786129]
合成データ生成は、機密性の高い患者情報を共有する際のプライバシー上の懸念を軽減するための有望なソリューションである。
近年の研究では、拡散モデルは、より現実的な合成データの生成や、画像、テキスト、音声などのデータモダリティの生成における安定したトレーニングなど、GANに対していくつかの利点があることが示された。
実験の結果,TabDDPMは,プライバシーとユーティリティのトレードオフを確認するプライバシー以外のすべての評価指標において,最先端モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-28T15:42:30Z) - Drug Synergistic Combinations Predictions via Large-Scale Pre-Training
and Graph Structure Learning [82.93806087715507]
薬物併用療法は、より有効で安全性の低い疾患治療のための確立された戦略である。
ディープラーニングモデルは、シナジスティックな組み合わせを発見する効率的な方法として登場した。
我々のフレームワークは、他のディープラーニングベースの手法と比較して最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-01-14T15:07:43Z) - Retrieval-based Controllable Molecule Generation [63.44583084888342]
制御可能な分子生成のための検索に基づく新しいフレームワークを提案する。
我々は、与えられた設計基準を満たす分子の合成に向けて、事前学習された生成モデルを操るために、分子の小さなセットを使用します。
提案手法は生成モデルの選択に非依存であり,タスク固有の微調整は不要である。
論文 参考訳(メタデータ) (2022-08-23T17:01:16Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。