論文の概要: VADA: a Data-Driven Simulator for Nanopore Sequencing
- arxiv url: http://arxiv.org/abs/2404.08722v1
- Date: Fri, 12 Apr 2024 13:24:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 19:02:07.909578
- Title: VADA: a Data-Driven Simulator for Nanopore Sequencing
- Title(参考訳): VADA: ナノ孔シークエンシングのためのデータ駆動シミュレータ
- Authors: Jonas Niederle, Simon Koop, Marc Pagès-Gallego, Vlado Menkovski,
- Abstract要約: 本稿では,自己回帰潜在変数モデルに基づいて,ナノ孔をシミュレーションする純粋データ駆動手法を提案する。
実験的なナノ孔データに対して,本モデルが競合シミュレーション性能を実現することを実証的に実証した。
我々は,DNAラベルから予測される情報的潜伏表現を学習したことを示す。
- 参考スコア(独自算出の注目度): 3.909855210960908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nanopore sequencing offers the ability for real-time analysis of long DNA sequences at a low cost, enabling new applications such as early detection of cancer. Due to the complex nature of nanopore measurements and the high cost of obtaining ground truth datasets, there is a need for nanopore simulators. Existing simulators rely on handcrafted rules and parameters and do not learn an internal representation that would allow for analysing underlying biological factors of interest. Instead, we propose VADA, a purely data-driven method for simulating nanopores based on an autoregressive latent variable model. We embed subsequences of DNA and introduce a conditional prior to address the challenge of a collapsing conditioning. We introduce an auxiliary regressor on the latent variable to encourage our model to learn an informative latent representation. We empirically demonstrate that our model achieves competitive simulation performance on experimental nanopore data. Moreover, we show we have learned an informative latent representation that is predictive of the DNA labels. We hypothesize that other biological factors of interest, beyond the DNA labels, can potentially be extracted from such a learned latent representation.
- Abstract(参考訳): ナノ孔シークエンシングは、長いDNA配列を低コストでリアルタイムに解析する機能を提供し、がんの早期検出などの新しい応用を可能にする。
ナノ孔測定の複雑な性質と地上の真理データセットを得るための高コストのため、ナノ孔シミュレータが必要である。
既存のシミュレーターは手作りのルールやパラメータに依存しており、生物学的な要因の分析を可能にする内部表現を学ばない。
代わりに,自己回帰潜在変数モデルに基づく,純粋にデータ駆動によるナノ孔のシミュレーション手法であるVADAを提案する。
我々はDNAのサブシーケンスを埋め込んで、崩壊する条件付けの課題に対処する前に条件を導入します。
我々は,潜在変数に補助的回帰器を導入し,情報的潜在表現を学習するようモデルに促す。
実験的なナノ孔データに対して,本モデルが競合シミュレーション性能を実現することを実証的に実証した。
さらに,我々は,DNAラベルを予測可能な情報潜在表現を学習したことを示す。
我々は、DNAラベル以外の他の生物学的要因が、そのような学習された潜伏表現から抽出できる可能性があると仮定する。
関連論文リスト
- Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - BEND: Benchmarking DNA Language Models on biologically meaningful tasks [7.005668635562045]
DNA言語モデルのベンチマークであるBENDを紹介し、現実的で生物学的に意味のある下流タスクのコレクションを特徴とする。
現在のDNA LMからの埋め込みは、一部のタスクにおいて専門家メソッドのパフォーマンスにアプローチできるが、長距離機能に関する限られた情報しか取得できない。
論文 参考訳(メタデータ) (2023-11-21T12:34:00Z) - Latent Diffusion Model for DNA Sequence Generation [5.194506374366898]
離散DNA配列生成に適した新しい潜伏拡散モデル DiscDiff を提案する。
離散DNA配列をオートエンコーダを用いて連続潜伏空間に埋め込むことで、離散データの生成に連続拡散モデルの強力な生成能力を活用できる。
我々は15種から150Kのプロモーター遺伝子配列の包括的クロス種データセットを寄贈し、ゲノム学における将来的な遺伝子モデリングのための資源を充実させた。
論文 参考訳(メタデータ) (2023-10-09T20:58:52Z) - The Expressive Leaky Memory Neuron: an Efficient and Expressive Phenomenological Neuron Model Can Solve Long-Horizon Tasks [64.08042492426992]
本稿では,脳皮質ニューロンの生物学的モデルであるExpressive Memory(ELM)ニューロンモデルを紹介する。
ELMニューロンは、上記の入力-出力関係を1万以下のトレーニング可能なパラメータと正確に一致させることができる。
本稿では,Long Range Arena(LRA)データセットなど,時間構造を必要とするタスクで評価する。
論文 参考訳(メタデータ) (2023-06-14T13:34:13Z) - DEL-Dock: Molecular Docking-Enabled Modeling of DNA-Encoded Libraries [1.290382979353427]
我々は、リガンドベースの記述子とドッキングされたタンパク質-リガンド複合体の3次元空間情報を組み合わせた新しいパラダイムDEL-Dockを導入する。
本モデルでは,分子富化スコアを予測するために,DELカウントデータを効果的にデノベートできることを示す。
論文 参考訳(メタデータ) (2022-11-30T22:00:24Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - Mixed Effects Neural ODE: A Variational Approximation for Analyzing the
Dynamics of Panel Data [50.23363975709122]
パネルデータ解析に(固定・ランダムな)混合効果を取り入れたME-NODEという確率モデルを提案する。
我々は、Wong-Zakai定理によって提供されるSDEの滑らかな近似を用いて、我々のモデルを導出できることを示す。
次に、ME-NODEのためのエビデンスに基づく下界を導出し、(効率的な)トレーニングアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-02-18T22:41:51Z) - A probabilistic latent variable model for detecting structure in binary
data [0.6767885381740952]
スパースバイナリデータにおけるパターンの雑音や近似的な繰り返しを検出するために,新しい確率的二項潜在変数モデルを導入する。
モデルの能力は、網膜ニューロンから記録された構造を抽出することによって示される。
映画刺激時の網膜神経節細胞に記録されたスパイク応答に本モデルを適用した。
論文 参考訳(メタデータ) (2022-01-26T18:37:35Z) - Inverting brain grey matter models with likelihood-free inference: a
tool for trustable cytoarchitecture measurements [62.997667081978825]
脳の灰白質細胞構造の特徴は、体密度と体積に定量的に敏感であり、dMRIでは未解決の課題である。
我々は新しいフォワードモデル、特に新しい方程式系を提案し、比較的スパースなb殻を必要とする。
次に,提案手法を逆転させるため,確率自由推論 (LFI) として知られるベイズ解析から最新のツールを適用した。
論文 参考訳(メタデータ) (2021-11-15T09:08:27Z) - Learning identifiable and interpretable latent models of
high-dimensional neural activity using pi-VAE [10.529943544385585]
本稿では,潜在モデルと従来のニューラルエンコーディングモデルから重要な要素を統合する手法を提案する。
我々の手法であるpi-VAEは、同定可能な変分自動エンコーダの最近の進歩にインスパイアされている。
人工データを用いてpi-VAEを検証し,それをラット海馬およびマカク運動野の神経生理学的データセットの解析に応用した。
論文 参考訳(メタデータ) (2020-11-09T22:00:38Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。