論文の概要: VADA: a Data-Driven Simulator for Nanopore Sequencing
- arxiv url: http://arxiv.org/abs/2404.08722v1
- Date: Fri, 12 Apr 2024 13:24:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 19:02:07.909578
- Title: VADA: a Data-Driven Simulator for Nanopore Sequencing
- Title(参考訳): VADA: ナノ孔シークエンシングのためのデータ駆動シミュレータ
- Authors: Jonas Niederle, Simon Koop, Marc Pagès-Gallego, Vlado Menkovski,
- Abstract要約: 本稿では,自己回帰潜在変数モデルに基づいて,ナノ孔をシミュレーションする純粋データ駆動手法を提案する。
実験的なナノ孔データに対して,本モデルが競合シミュレーション性能を実現することを実証的に実証した。
我々は,DNAラベルから予測される情報的潜伏表現を学習したことを示す。
- 参考スコア(独自算出の注目度): 3.909855210960908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nanopore sequencing offers the ability for real-time analysis of long DNA sequences at a low cost, enabling new applications such as early detection of cancer. Due to the complex nature of nanopore measurements and the high cost of obtaining ground truth datasets, there is a need for nanopore simulators. Existing simulators rely on handcrafted rules and parameters and do not learn an internal representation that would allow for analysing underlying biological factors of interest. Instead, we propose VADA, a purely data-driven method for simulating nanopores based on an autoregressive latent variable model. We embed subsequences of DNA and introduce a conditional prior to address the challenge of a collapsing conditioning. We introduce an auxiliary regressor on the latent variable to encourage our model to learn an informative latent representation. We empirically demonstrate that our model achieves competitive simulation performance on experimental nanopore data. Moreover, we show we have learned an informative latent representation that is predictive of the DNA labels. We hypothesize that other biological factors of interest, beyond the DNA labels, can potentially be extracted from such a learned latent representation.
- Abstract(参考訳): ナノ孔シークエンシングは、長いDNA配列を低コストでリアルタイムに解析する機能を提供し、がんの早期検出などの新しい応用を可能にする。
ナノ孔測定の複雑な性質と地上の真理データセットを得るための高コストのため、ナノ孔シミュレータが必要である。
既存のシミュレーターは手作りのルールやパラメータに依存しており、生物学的な要因の分析を可能にする内部表現を学ばない。
代わりに,自己回帰潜在変数モデルに基づく,純粋にデータ駆動によるナノ孔のシミュレーション手法であるVADAを提案する。
我々はDNAのサブシーケンスを埋め込んで、崩壊する条件付けの課題に対処する前に条件を導入します。
我々は,潜在変数に補助的回帰器を導入し,情報的潜在表現を学習するようモデルに促す。
実験的なナノ孔データに対して,本モデルが競合シミュレーション性能を実現することを実証的に実証した。
さらに,我々は,DNAラベルを予測可能な情報潜在表現を学習したことを示す。
我々は、DNAラベル以外の他の生物学的要因が、そのような学習された潜伏表現から抽出できる可能性があると仮定する。
関連論文リスト
- Diffusion-Based Generation of Neural Activity from Disentangled Latent Codes [1.9544534628180867]
本稿では,条件付き生成モデリングの進歩を生かしたニューラルデータ解析手法を提案する。
我々は,高情報付きコードに基づくニューラル・オブザーバ生成と呼ばれるモデルを時系列ニューラル・データに適用する。
VAEベースのシーケンシャルオートエンコーダと比較して、GNOCCHIは、鍵となる振る舞い変数に関してより明確に構造化され、よりゆがみのある高品質な潜在空間を学習する。
論文 参考訳(メタデータ) (2024-07-30T21:07:09Z) - A Benchmark Dataset for Multimodal Prediction of Enzymatic Function Coupling DNA Sequences and Natural Language [3.384797724820242]
DNA配列から遺伝子機能を予測することは、生物学における根本的な課題である。
深層学習モデルは、DNA配列を埋め込み、その酵素機能を予測するために提案されている。
科学界の生物学的機能に関する知識の多くは分類学的なラベルで表されていない。
論文 参考訳(メタデータ) (2024-07-21T19:27:43Z) - Generating Multi-Modal and Multi-Attribute Single-Cell Counts with CFGen [76.02070962797794]
マルチモーダル単細胞数に対するフローベース条件生成モデルであるセルフロー・フォー・ジェネレーションを提案する。
本研究は, 新規な生成タスクを考慮に入れた上で, 重要な生物学的データ特性の回復性の向上を示唆するものである。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - Latent Diffusion for Neural Spiking Data [4.888417429053433]
本稿では,低次元潜時空間を持つ拡散型生成モデルであるLDNSについて述べる。
これらの推論された潜伏剤を用いて、表現的拡散モデル(条件付き拡散モデル)を訓練し、現実的な単一ニューロンと集団スパイキング統計を用いた神経活動のサンプル化を可能にした。
本研究では, 潜伏状態に依存しない単一ニューロンのダイナミクスを考慮した表現型観測モデルを用いて, LDNSの装備方法を示し, 生成したサンプルのリアリズムをさらに高めている。
論文 参考訳(メタデータ) (2024-06-27T13:47:06Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - Mixed Effects Neural ODE: A Variational Approximation for Analyzing the
Dynamics of Panel Data [50.23363975709122]
パネルデータ解析に(固定・ランダムな)混合効果を取り入れたME-NODEという確率モデルを提案する。
我々は、Wong-Zakai定理によって提供されるSDEの滑らかな近似を用いて、我々のモデルを導出できることを示す。
次に、ME-NODEのためのエビデンスに基づく下界を導出し、(効率的な)トレーニングアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-02-18T22:41:51Z) - Inverting brain grey matter models with likelihood-free inference: a
tool for trustable cytoarchitecture measurements [62.997667081978825]
脳の灰白質細胞構造の特徴は、体密度と体積に定量的に敏感であり、dMRIでは未解決の課題である。
我々は新しいフォワードモデル、特に新しい方程式系を提案し、比較的スパースなb殻を必要とする。
次に,提案手法を逆転させるため,確率自由推論 (LFI) として知られるベイズ解析から最新のツールを適用した。
論文 参考訳(メタデータ) (2021-11-15T09:08:27Z) - Learning identifiable and interpretable latent models of
high-dimensional neural activity using pi-VAE [10.529943544385585]
本稿では,潜在モデルと従来のニューラルエンコーディングモデルから重要な要素を統合する手法を提案する。
我々の手法であるpi-VAEは、同定可能な変分自動エンコーダの最近の進歩にインスパイアされている。
人工データを用いてpi-VAEを検証し,それをラット海馬およびマカク運動野の神経生理学的データセットの解析に応用した。
論文 参考訳(メタデータ) (2020-11-09T22:00:38Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。