論文の概要: Single-Read Reconstruction for DNA Data Storage Using Transformers
- arxiv url: http://arxiv.org/abs/2109.05478v1
- Date: Sun, 12 Sep 2021 10:01:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 15:08:52.985393
- Title: Single-Read Reconstruction for DNA Data Storage Using Transformers
- Title(参考訳): トランスを用いたDNAデータの単一読取再構成
- Authors: Yotam Nahum, Eyar Ben-Tolila, Leon Anavy
- Abstract要約: エンコーダ・デコーダ・トランスフォーマアーキテクチャを用いたDNAベースのデータストレージのためのシングルリード再構成手法を提案する。
本モデルでは,DNA鎖の1つの読み取りから元のデータを再構成する際の誤り率を低くする。
これは、DNAベースのストレージにおけるシングルリード再構築にディープラーニングモデルを使用した最初のデモンストレーションである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As the global need for large-scale data storage is rising exponentially,
existing storage technologies are approaching their theoretical and functional
limits in terms of density and energy consumption, making DNA based storage a
potential solution for the future of data storage. Several studies introduced
DNA based storage systems with high information density (petabytes/gram).
However, DNA synthesis and sequencing technologies yield erroneous outputs.
Algorithmic approaches for correcting these errors depend on reading multiple
copies of each sequence and result in excessive reading costs. The
unprecedented success of Transformers as a deep learning architecture for
language modeling has led to its repurposing for solving a variety of tasks
across various domains. In this work, we propose a novel approach for
single-read reconstruction using an encoder-decoder Transformer architecture
for DNA based data storage. We address the error correction process as a
self-supervised sequence-to-sequence task and use synthetic noise injection to
train the model using only the decoded reads. Our approach exploits the
inherent redundancy of each decoded file to learn its underlying structure. To
demonstrate our proposed approach, we encode text, image and code-script files
to DNA, produce errors with high-fidelity error simulator, and reconstruct the
original files from the noisy reads. Our model achieves lower error rates when
reconstructing the original data from a single read of each DNA strand compared
to state-of-the-art algorithms using 2-3 copies. This is the first
demonstration of using deep learning models for single-read reconstruction in
DNA based storage which allows for the reduction of the overall cost of the
process. We show that this approach is applicable for various domains and can
be generalized to new domains as well.
- Abstract(参考訳): 大規模データストレージの世界的な需要が指数関数的に増加する中、既存のストレージ技術は、密度とエネルギー消費の観点から、理論的および機能的な限界に近づいている。
いくつかの研究は、高情報密度(ペタバイト/グラム)のDNAベースのストレージシステムを導入した。
しかし、DNA合成とシークエンシング技術は誤った出力をもたらす。
これらの誤りを修正するアルゴリズム的アプローチは、各シーケンスの複数のコピーを読み取ることに依存する。
言語モデリングのためのディープラーニングアーキテクチャとしてTransformersが前例のない成功を収めたことは、さまざまな領域にわたるさまざまなタスクを解決するための再開発につながった。
そこで本研究では,エンコーダ・デコーダ・トランスフォーマアーキテクチャを用いて,DNAベースのデータストレージを実現する手法を提案する。
本稿では,誤り訂正処理を自己教師付きシーケンス・ツー・シーケンスタスクとして扱い,合成ノイズインジェクションを用いて復号化読み取りのみを用いてモデルを訓練する。
提案手法は,デコードされた各ファイルに固有の冗長性を利用して,その基盤となる構造を学習する。
提案手法を実証するために,テキスト,画像,コードスクリプトファイルをDNAにエンコードし,高忠実度エラーシミュレータを用いてエラーを生成し,ノイズのある読み出しから元のファイルを再構成する。
本モデルでは,DNA鎖の1つの読み取りから元のデータを再構成する際の誤り率を2~3コピーを用いた最新アルゴリズムと比較した。
これは、dnaベースのストレージにおける単一読み取り再構成にディープラーニングモデルを使用することによる、プロセス全体のコスト削減を可能にする最初の例である。
このアプローチは様々なドメインに適用可能であり、新しいドメインにも一般化できることを示す。
関連論文リスト
- Learning Structurally Stabilized Representations for Multi-modal Lossless DNA Storage [32.00500955709341]
Reed-Solomon coded single-stranded representation learningはDNAストレージの表現を学習するための新しいエンドツーエンドモデルである。
既存の学習手法とは対照的に、RSRLは誤り訂正と構造生物学の両方に着想を得ている。
その結果、RSRLは、情報密度と耐久性がはるかに高いがエラー率がはるかに低い様々な種類のデータを格納できることを示した。
論文 参考訳(メタデータ) (2024-07-17T06:31:49Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - GEC-DePenD: Non-Autoregressive Grammatical Error Correction with
Decoupled Permutation and Decoding [52.14832976759585]
文法的誤り訂正(GEC)は、通常自己回帰的なシーケンス・ツー・シーケンスモデルで解決される重要なNLPタスクである。
本稿では, アーキテクチャを置換ネットワークに分離する, GEC に対する非自己回帰的アプローチを提案する。
GECの既知の非自己回帰手法よりもネットワークが向上することを示す。
論文 参考訳(メタデータ) (2023-11-14T14:24:36Z) - Embed-Search-Align: DNA Sequence Alignment using Transformer Models [2.48439258515764]
我々はTransformerモデルのシーケンスアライメントタスクを"Embed-Search-Align"タスクとしてフレーミングすることでギャップを埋める。
新規なレファレンスフリーDNA埋め込みモデルは、共有ベクトル空間に投影される読み取りおよび参照フラグメントの埋め込みを生成する。
DNA-ESAは、BowtieやBWA-Memといった従来の手法に匹敵する、ヒトゲノム(3gb)に250長の読み書きを合わせると99%正確である。
論文 参考訳(メタデータ) (2023-09-20T06:30:39Z) - Implicit Neural Multiple Description for DNA-based data storage [6.423239719448169]
DNAは、ストレージ密度と長期的な安定性のために、データストレージソリューションとして大きな可能性を秘めている。
しかし、この新素材の開発には、特に貯蔵や生物学的操作によるエラーに対処する上で、独自の課題が伴う。
我々は,DNAデータ記憶にニューラルネットワークを利用する,新しい圧縮手法と最先端の多重記述符号化(MDC)技術を開発した。
論文 参考訳(メタデータ) (2023-09-13T13:42:52Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Image Storage on Synthetic DNA Using Autoencoders [6.096779295981377]
本稿では,DNAデータ記憶に適応した畳み込みオートエンコーダを用いた画像圧縮手法について述べる。
ここで提示されたモデルアーキテクチャは、画像を効率よく圧縮し、それを第四次コードにエンコードし、最終的に合成DNA分子に格納するように設計されている。
論文 参考訳(メタデータ) (2022-03-18T14:17:48Z) - COIN++: Data Agnostic Neural Compression [55.27113889737545]
COIN++は、幅広いデータモダリティをシームレスに扱うニューラルネットワーク圧縮フレームワークである。
様々なデータモダリティを圧縮することで,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-01-30T20:12:04Z) - Deep DNA Storage: Scalable and Robust DNA Storage via Coding Theory and
Deep Learning [49.3231734733112]
シミュレーションデータに基づいてトレーニングされたDeep Neural Networks(DNN)、Product(TP)ベースのエラー修正コード(ECC)、安全マージンを1つのコヒーレントパイプラインに組み合わせたモジュラーで総合的なアプローチを示す。
我々の研究は, 最大で x3200 の速度向上, 40%の精度向上により, 現在の指導的ソリューションの改善を実現し, 高雑音下では1ベースあたり1.6ビットのコードレートを提供する。
論文 参考訳(メタデータ) (2021-08-31T18:21:20Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - Recurrence-free unconstrained handwritten text recognition using gated
fully convolutional network [2.277447144331876]
制約のない手書きテキスト認識は、ほとんどのドキュメント分析タスクの主要なステップです。
LSTM細胞を使用する別の方法の1つは、畳み込み層を多用して長期記憶損失を補うことである。
我々は、よく知られたCNN+LSTMアーキテクチャの再発のない代替であるGated Fully Convolutional Networkアーキテクチャを紹介します。
論文 参考訳(メタデータ) (2020-12-09T10:30:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。