論文の概要: Efficient approximation of DNA hybridisation using deep learning
- arxiv url: http://arxiv.org/abs/2102.10131v1
- Date: Fri, 19 Feb 2021 19:23:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 17:08:25.306096
- Title: Efficient approximation of DNA hybridisation using deep learning
- Title(参考訳): ディープラーニングを用いたDNAハイブリダイゼーションの効率的近似
- Authors: David Buterez
- Abstract要約: 本研究は,DNAハイブリダイゼーションの予測に応用された機械学習手法の総合的研究である。
機械学習アルゴリズムの広い範囲の使用を可能にする2.5百万以上のデータポイントの合成ハイブリッド化データセットを紹介します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deoxyribonucleic acid (DNA) has shown great promise in enabling computational
applications, most notably in the fields of DNA data storage and DNA computing.
The former exploits the natural properties of DNA, such as high storage density
and longevity, for the archival of digital information, while the latter aims
to use the interactivity of DNA to encode computations. Recently, the two
paradigms were jointly used to formulate the near-data processing concept for
DNA databases, where the computations are performed directly on the stored
data. The fundamental, low-level operation that DNA naturally possesses is that
of hybridisation, also called annealing, of complementary sequences.
Information is encoded as DNA strands, which will naturally bind in solution,
thus enabling search and pattern-matching capabilities. Being able to control
and predict the process of hybridisation is crucial for the ambitious future of
the so-called Hybrid Molecular-Electronic Computing. Current tools are,
however, limited in terms of throughput and applicability to large-scale
problems.
In this work, we present the first comprehensive study of machine learning
methods applied to the task of predicting DNA hybridisation. For this purpose,
we introduce a synthetic hybridisation dataset of over 2.5 million data points,
enabling the use of a wide range of machine learning algorithms, including the
latest in deep learning. Depending on the hardware, the proposed models provide
a reduction in inference time ranging from one to over two orders of magnitude
compared to the state-of-the-art, while retaining high fidelity. We then
discuss the integration of our methods in modern, scalable workflows. The
implementation is available at:
https://github.com/davidbuterez/dna-hyb-deep-learning
- Abstract(参考訳): デオキシリボヌクレイン酸(DNA)は、特にDNAデータストレージとDNAコンピューティングの分野において、計算応用の実現に大きな可能性を示している。
前者は、高記憶密度や長寿などのDNAの自然特性をデジタル情報のアーカイブに利用し、後者は、DNAの相互作用性を利用して計算をエンコードすることを目的としている。
近年,この2つのパラダイムは,保存データ上で直接計算を行うDNAデータベースのニアデータ処理概念の定式化に用いられている。
DNAが自然に持つ基本的な低レベルな操作は、相補配列のハイブリッド化(アニーリングとも呼ばれる)である。
情報はDNAストランドとしてエンコードされ、溶液に自然に結合し、検索およびパターンマッチング機能を可能にします。
ハイブリッド化の過程を制御し予測できることは、いわゆるハイブリッド分子電子コンピューティングの野心的な未来に不可欠である。
しかし、現在のツールはスループットと大規模問題への適用性に制限されている。
本稿では,dnaハイブリダイゼーションの予測タスクに適用する機械学習手法について,初めて包括的な研究を行う。
この目的のために、250万以上のデータポイントからなる合成ハイブリダイゼーションデータセットを導入し、最新のディープラーニングを含む幅広い機械学習アルゴリズムの使用を可能にした。
提案モデルは、ハードウェアによっては、最先端のものと比較して1桁から2桁までの推論時間を短縮し、高い忠実性を維持します。
次に,最新のスケーラブルワークフローにおけるメソッドの統合について論じる。
実装はhttps://github.com/davidbuterez/dna-hyb-deep-learningで入手できる。
関連論文リスト
- HybriDNA: A Hybrid Transformer-Mamba2 Long-Range DNA Language Model [70.69095062674944]
ハイブリッドトランスフォーマー-マンバ2アーキテクチャを組み込んだデコーダのみのDNA言語モデルであるHybriDNAを提案する。
このハイブリッド設計により、HybriDNAはDNA配列を最大131kbまで効率よく単一のヌクレオチド分解能で処理できる。
HybriDNAは、BEND、GUE、LRBベンチマークから算出された33のDNA理解データセットにまたがる最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-15T14:23:43Z) - Model Decides How to Tokenize: Adaptive DNA Sequence Tokenization with MxDNA [44.630039477717624]
MxDNAは、モデルが段階的に有効なDNAトークン化戦略を自律的に学習する新しいフレームワークである。
我々は、MxDNAが従来の方法とは異なるユニークなトークン化戦略を学習し、自己教師付き事前学習中にトークンレベルでゲノム機能をキャプチャすることを示す。
論文 参考訳(メタデータ) (2024-12-18T10:55:43Z) - SemAI: Semantic Artificial Intelligence-enhanced DNA storage for Internet-of-Things [9.858497777817522]
本稿では,Semantic Artificial Intelligence-enhanced DNA Storage(SemAI-DNA)パラダイムを紹介する。
数値的な結果から,SemAI-DNAの有効性が示され,従来の深層学習アプローチよりも2.61dBピーク信号-雑音比(PSNR)が向上し,構造類似度指数(SSIM)が0.13改善した。
論文 参考訳(メタデータ) (2024-09-18T12:21:58Z) - A Benchmark Dataset for Multimodal Prediction of Enzymatic Function Coupling DNA Sequences and Natural Language [3.384797724820242]
DNA配列から遺伝子機能を予測することは、生物学における根本的な課題である。
深層学習モデルは、DNA配列を埋め込み、その酵素機能を予測するために提案されている。
科学界の生物学的機能に関する知識の多くは分類学的なラベルで表されていない。
論文 参考訳(メタデータ) (2024-07-21T19:27:43Z) - BEND: Benchmarking DNA Language Models on biologically meaningful tasks [7.005668635562045]
DNA言語モデルのベンチマークであるBENDを紹介し、現実的で生物学的に意味のある下流タスクのコレクションを特徴とする。
現在のDNA LMからの埋め込みは、一部のタスクにおいて専門家メソッドのパフォーマンスにアプローチできるが、長距離機能に関する限られた情報しか取得できない。
論文 参考訳(メタデータ) (2023-11-21T12:34:00Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - Efficient Automation of Neural Network Design: A Survey on
Differentiable Neural Architecture Search [70.31239620427526]
微分可能なニューラルネットワーク探索(DNAS)は、ディープニューラルネットワークアーキテクチャの発見を自動化するトレンドのアプローチとして、急速に自らを強制した。
この増加は主に、最初の主要なDNAS法の一つであるDARTSの人気が原因である。
本総説では,DNASに特に焦点をあて,最近のアプローチを概観する。
論文 参考訳(メタデータ) (2023-04-11T13:15:29Z) - Deep metric learning improves lab of origin prediction of genetically
engineered plasmids [63.05016513788047]
遺伝工学の属性(GEA)は、配列-ラブの関連を作る能力である。
本稿では,計量学習に基づいて,最も可能性の高い実験室をランク付けする手法を提案する。
我々は、特定の実験室のプラスミド配列のキーシグネチャを抽出することができ、モデル出力の解釈可能な検査を可能にする。
論文 参考訳(メタデータ) (2021-11-24T16:29:03Z) - Deep DNA Storage: Scalable and Robust DNA Storage via Coding Theory and
Deep Learning [49.3231734733112]
シミュレーションデータに基づいてトレーニングされたDeep Neural Networks(DNN)、Product(TP)ベースのエラー修正コード(ECC)、安全マージンを1つのコヒーレントパイプラインに組み合わせたモジュラーで総合的なアプローチを示す。
我々の研究は, 最大で x3200 の速度向上, 40%の精度向上により, 現在の指導的ソリューションの改善を実現し, 高雑音下では1ベースあたり1.6ビットのコードレートを提供する。
論文 参考訳(メタデータ) (2021-08-31T18:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。