論文の概要: Beyond the Alphabet: Deep Signal Embedding for Enhanced DNA Clustering
- arxiv url: http://arxiv.org/abs/2410.06188v1
- Date: Tue, 8 Oct 2024 16:51:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 10:41:07.287588
- Title: Beyond the Alphabet: Deep Signal Embedding for Enhanced DNA Clustering
- Title(参考訳): Alphabetを超えて:DNAクラスタリングを強化したディープシグナル埋め込み
- Authors: Hadas Abraham, Barak Gahtan, Adir Kobovich, Orian Leitersdorf, Alex M. Bronstein, Eitan Yaakobi,
- Abstract要約: DNAシークエンシングプロセスが個々のDNA読み取り(A/T/C/G)を生成すると、従来のDNA保存ソリューションが始まります。
そこで本研究では,Nanopore DNAシークエンシングマシンが生成した生信号が,塩基に識別される前に利用できない可能性があることを確認した。
本稿では,これらの信号を直接クラスタリングし,精度を向上し,計算時間を短縮するディープニューラルネットワークを提案する。
- 参考スコア(独自算出の注目度): 36.36906523347525
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The emerging field of DNA storage employs strands of DNA bases (A/T/C/G) as a storage medium for digital information to enable massive density and durability. The DNA storage pipeline includes: (1) encoding the raw data into sequences of DNA bases; (2) synthesizing the sequences as DNA \textit{strands} that are stored over time as an unordered set; (3) sequencing the DNA strands to generate DNA \textit{reads}; and (4) deducing the original data. The DNA synthesis and sequencing stages each generate several independent error-prone duplicates of each strand which are then utilized in the final stage to reconstruct the best estimate for the original strand. Specifically, the reads are first \textit{clustered} into groups likely originating from the same strand (based on their similarity to each other), and then each group approximates the strand that led to the reads of that group. This work improves the DNA clustering stage by embedding it as part of the DNA sequencing. Traditional DNA storage solutions begin after the DNA sequencing process generates discrete DNA reads (A/T/C/G), yet we identify that there is untapped potential in using the raw signals generated by the Nanopore DNA sequencing machine before they are discretized into bases, a process known as \textit{basecalling}, which is done using a deep neural network. We propose a deep neural network that clusters these signals directly, demonstrating superior accuracy, and reduced computation times compared to current approaches that cluster after basecalling.
- Abstract(参考訳): DNAストレージの新たな分野は、DNA塩基の鎖(A/T/C/G)をデジタル情報の記憶媒体として利用して、膨大な密度と耐久性を実現している。
本発明のDNA保存パイプラインは、(1)生データをDNA塩基の配列にエンコードする;(2)配列を非順序集合として保存するDNA \textit{strands}として合成する;(3)DNA鎖をシークエンシングしてDNA \textit{reads}を生成する;(4)原データのデジェクションを含む。
DNA合成およびシークエンシング段階はそれぞれ、それぞれの鎖の独立したエラーを起こし、最終段階で利用され、元の鎖の最良の推定値を再構築する。
具体的には、読み込みは最初、同じストランド(互いに類似性に基づいて)に由来すると思われるグループに分割され、その後、各グループはそのグループの読み込みに繋がるストランドを近似する。
この研究はDNAシークエンシングの一部として組み込むことでDNAクラスタリングの段階を改善する。
DNAシークエンシングプロセスは、個別のDNA読み取り(A/T/C/G)を生成した後に開始されるが、ベースに識別される前にNanopore DNAシークエンシングマシンによって生成された生信号を使用することには、未解決の可能性がある。
本稿では,これらの信号を直接クラスタリングするディープニューラルネットワークを提案する。
関連論文リスト
- Dy-mer: An Explainable DNA Sequence Representation Scheme using Sparse Recovery [6.733319363951907]
textbfDy-merはスパースリカバリに基づく説明可能で堅牢な表現スキームである。
DNAプロモーターの分類における最先端のパフォーマンスを達成し、textbf13%の精度向上をもたらす。
論文 参考訳(メタデータ) (2024-07-06T15:08:31Z) - Embed-Search-Align: DNA Sequence Alignment using Transformer Models [2.48439258515764]
我々はTransformerモデルのシーケンスアライメントタスクを"Embed-Search-Align"タスクとしてフレーミングすることでギャップを埋める。
新規なレファレンスフリーDNA埋め込みモデルは、共有ベクトル空間に投影される読み取りおよび参照フラグメントの埋め込みを生成する。
DNA-ESAは、BowtieやBWA-Memといった従来の手法に匹敵する、ヒトゲノム(3gb)に250長の読み書きを合わせると99%正確である。
論文 参考訳(メタデータ) (2023-09-20T06:30:39Z) - Quantum gate algorithm for reference-guided DNA sequence alignment [0.0]
ゲート型量子コンピューティングをモデルとした参照誘導型DNA配列アライメントのための新しい量子アルゴリズムを提案する。
このアルゴリズムはスケーラブルで、既存の古典的なDNAシークエンシングシステムに統合することができ、計算エラーを制限するために意図的に構造化されている。
論文 参考訳(メタデータ) (2023-08-08T18:41:24Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - Efficient Automation of Neural Network Design: A Survey on
Differentiable Neural Architecture Search [70.31239620427526]
微分可能なニューラルネットワーク探索(DNAS)は、ディープニューラルネットワークアーキテクチャの発見を自動化するトレンドのアプローチとして、急速に自らを強制した。
この増加は主に、最初の主要なDNAS法の一つであるDARTSの人気が原因である。
本総説では,DNASに特に焦点をあて,最近のアプローチを概観する。
論文 参考訳(メタデータ) (2023-04-11T13:15:29Z) - Graph Neural Networks for Microbial Genome Recovery [64.91162205624848]
本稿では,グラフニューラルネットワーク(GNN)を用いて,メダゲノミクスビニングのためのコンティグ表現を学習する際のアセンブリグラフを活用することを提案する。
提案手法であるVaeG-Binは,個々のコンティグの潜在表現を学習するための変分オートエンコーダと,アセンブリグラフ内のコンティグの近傍構造を考慮したGNNを組み合わせる。
論文 参考訳(メタデータ) (2022-04-26T12:49:51Z) - Deep metric learning improves lab of origin prediction of genetically
engineered plasmids [63.05016513788047]
遺伝工学の属性(GEA)は、配列-ラブの関連を作る能力である。
本稿では,計量学習に基づいて,最も可能性の高い実験室をランク付けする手法を提案する。
我々は、特定の実験室のプラスミド配列のキーシグネチャを抽出することができ、モデル出力の解釈可能な検査を可能にする。
論文 参考訳(メタデータ) (2021-11-24T16:29:03Z) - Deep DNA Storage: Scalable and Robust DNA Storage via Coding Theory and
Deep Learning [49.3231734733112]
シミュレーションデータに基づいてトレーニングされたDeep Neural Networks(DNN)、Product(TP)ベースのエラー修正コード(ECC)、安全マージンを1つのコヒーレントパイプラインに組み合わせたモジュラーで総合的なアプローチを示す。
我々の研究は, 最大で x3200 の速度向上, 40%の精度向上により, 現在の指導的ソリューションの改善を実現し, 高雑音下では1ベースあたり1.6ビットのコードレートを提供する。
論文 参考訳(メタデータ) (2021-08-31T18:21:20Z) - DNA-GCN: Graph convolutional networks for predicting DNA-protein binding [4.1600531290054]
シーケンスk-merグラフを構築し、データセット全体のDNA-GCN(DNA-GCN)を学習する。
DNA-GCNは全てのノードに対して1ホット表現を持ち、その後、k-merとシーケンスの両方の埋め込みを共同で学習する。
ENCODEから50のデータセットでモデルを評価した。
論文 参考訳(メタデータ) (2021-06-02T07:36:11Z) - Efficient approximation of DNA hybridisation using deep learning [0.0]
本研究は,DNAハイブリダイゼーションの予測に応用された機械学習手法の総合的研究である。
機械学習アルゴリズムの広い範囲の使用を可能にする2.5百万以上のデータポイントの合成ハイブリッド化データセットを紹介します。
論文 参考訳(メタデータ) (2021-02-19T19:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。