論文の概要: DNA data storage, sequencing data-carrying DNA
- arxiv url: http://arxiv.org/abs/2205.05488v1
- Date: Wed, 11 May 2022 13:31:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 22:01:26.636099
- Title: DNA data storage, sequencing data-carrying DNA
- Title(参考訳): DNAデータ保存, シークエンシングDNA
- Authors: Jasmine Quah, Omer Sella, Thomas Heinis
- Abstract要約: 深部モデルサイズと誤り訂正符号の精度トレードオフについて検討する。
モデルサイズが107MBから始めると、単純な誤り訂正符号を用いることで、モデル圧縮による精度の低下を補償できることが示される。
- 参考スコア(独自算出の注目度): 2.4493299476776778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: DNA is a leading candidate as the next archival storage media due to its
density, durability and sustainability. To read (and write) data DNA storage
exploits technology that has been developed over decades to sequence naturally
occurring DNA in the life sciences. To achieve higher accuracy for previously
unseen, biological DNA, sequencing relies on extending and training deep
machine learning models known as basecallers. This growth in model complexity
requires substantial resources, both computational and data sets. It also
eliminates the possibility of a compact read head for DNA as a storage medium.
We argue that we need to depart from blindly using sequencing models from the
life sciences for DNA data storage. The difference is striking: for life
science applications we have no control over the DNA, however, in the case of
DNA data storage, we control how it is written, as well as the particular write
head. More specifically, data-carrying DNA can be modulated and embedded with
alignment markers and error correcting codes to guarantee higher fidelity and
to carry out some of the work that the machine learning models perform.
In this paper, we study accuracy trade-offs between deep model size and error
correcting codes. We show that, starting with a model size of 107MB, the
reduced accuracy from model compression can be compensated by using simple
error correcting codes in the DNA sequences. In our experiments, we show that a
substantial reduction in the size of the model does not incur an undue penalty
for the error correcting codes used, therefore paving the way for portable
data-carrying DNA read head. Crucially, we show that through the joint use of
model compression and error correcting codes, we achieve a higher read accuracy
than without compression and error correction codes.
- Abstract(参考訳): DNAはその密度、耐久性、持続可能性のために次のアーカイブ記憶媒体として有力候補である。
生命科学において自然に発生するDNAを解析するために、何十年にもわたって開発されてきた技術を利用して、データの読み書きを行う。
それまで見えなかった生物学的DNAの精度を高めるために、シークエンシングはベースコールとして知られるディープラーニングモデルの拡張とトレーニングに依存している。
このモデル複雑性の増大は、計算とデータセットの両方において、かなりのリソースを必要とする。
また、dnaを記憶媒体とするコンパクトな読み取りヘッドの可能性も排除している。
私たちは、DNAデータ保存のために生命科学のシークエンシングモデルを盲目的に使用するのをやめる必要があると論じています。
ライフサイエンスの応用ではDNAを制御できませんが、DNAデータストレージの場合、その書き方や特定の書き込みヘッドを制御します。
具体的には、データ転送DNAをアライメントマーカーとエラー訂正コードで変調して組み込んで、より高い忠実性を確保し、機械学習モデルが実行するいくつかの作業を実行することができる。
本稿では,深部モデルサイズと誤り訂正符号の精度トレードオフについて検討する。
モデルサイズが107MBから始めて, モデル圧縮による精度の低下を, DNA配列の単純な誤り訂正符号を用いて補償できることを示す。
実験では, モデルのサイズが大幅に減少しても, 使用する誤り訂正符号に不適切なペナルティが生じることがなく, 携帯型データ搬送型DNA読取ヘッドへの道が開かれた。
また,モデル圧縮と誤り訂正符号の併用により,圧縮や誤り訂正符号を使わずに読み出し精度が向上することを示す。
関連論文リスト
- VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - BEND: Benchmarking DNA Language Models on biologically meaningful tasks [7.005668635562045]
DNA言語モデルのベンチマークであるBENDを紹介し、現実的で生物学的に意味のある下流タスクのコレクションを特徴とする。
現在のDNA LMからの埋め込みは、一部のタスクにおいて専門家メソッドのパフォーマンスにアプローチできるが、長距離機能に関する限られた情報しか取得できない。
論文 参考訳(メタデータ) (2023-11-21T12:34:00Z) - Implicit Neural Multiple Description for DNA-based data storage [6.423239719448169]
DNAは、ストレージ密度と長期的な安定性のために、データストレージソリューションとして大きな可能性を秘めている。
しかし、この新素材の開発には、特に貯蔵や生物学的操作によるエラーに対処する上で、独自の課題が伴う。
我々は,DNAデータ記憶にニューラルネットワークを利用する,新しい圧縮手法と最先端の多重記述符号化(MDC)技術を開発した。
論文 参考訳(メタデータ) (2023-09-13T13:42:52Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - Validation tests of GBS quantum computers give evidence for quantum
advantage with a decoherent target [62.997667081978825]
複数モードデータの検証に指紋としてグループカウント確率の正P位相空間シミュレーションを用いる。
偽データを解き放つ方法を示し、これを古典的なカウントアルゴリズムに適用する。
論文 参考訳(メタデータ) (2022-11-07T12:00:45Z) - Image Storage on Synthetic DNA Using Autoencoders [6.096779295981377]
本稿では,DNAデータ記憶に適応した畳み込みオートエンコーダを用いた画像圧縮手法について述べる。
ここで提示されたモデルアーキテクチャは、画像を効率よく圧縮し、それを第四次コードにエンコードし、最終的に合成DNA分子に格納するように設計されている。
論文 参考訳(メタデータ) (2022-03-18T14:17:48Z) - Deep metric learning improves lab of origin prediction of genetically
engineered plasmids [63.05016513788047]
遺伝工学の属性(GEA)は、配列-ラブの関連を作る能力である。
本稿では,計量学習に基づいて,最も可能性の高い実験室をランク付けする手法を提案する。
我々は、特定の実験室のプラスミド配列のキーシグネチャを抽出することができ、モデル出力の解釈可能な検査を可能にする。
論文 参考訳(メタデータ) (2021-11-24T16:29:03Z) - Single-Read Reconstruction for DNA Data Storage Using Transformers [0.0]
エンコーダ・デコーダ・トランスフォーマアーキテクチャを用いたDNAベースのデータストレージのためのシングルリード再構成手法を提案する。
本モデルでは,DNA鎖の1つの読み取りから元のデータを再構成する際の誤り率を低くする。
これは、DNAベースのストレージにおけるシングルリード再構築にディープラーニングモデルを使用した最初のデモンストレーションである。
論文 参考訳(メタデータ) (2021-09-12T10:01:59Z) - Deep DNA Storage: Scalable and Robust DNA Storage via Coding Theory and
Deep Learning [49.3231734733112]
シミュレーションデータに基づいてトレーニングされたDeep Neural Networks(DNN)、Product(TP)ベースのエラー修正コード(ECC)、安全マージンを1つのコヒーレントパイプラインに組み合わせたモジュラーで総合的なアプローチを示す。
我々の研究は, 最大で x3200 の速度向上, 40%の精度向上により, 現在の指導的ソリューションの改善を実現し, 高雑音下では1ベースあたり1.6ビットのコードレートを提供する。
論文 参考訳(メタデータ) (2021-08-31T18:21:20Z) - Efficient approximation of DNA hybridisation using deep learning [0.0]
本研究は,DNAハイブリダイゼーションの予測に応用された機械学習手法の総合的研究である。
機械学習アルゴリズムの広い範囲の使用を可能にする2.5百万以上のデータポイントの合成ハイブリッド化データセットを紹介します。
論文 参考訳(メタデータ) (2021-02-19T19:23:49Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。