論文の概要: Knowledge distillation for fast and accurate DNA sequence correction
- arxiv url: http://arxiv.org/abs/2211.09862v1
- Date: Thu, 17 Nov 2022 19:54:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 15:45:16.984559
- Title: Knowledge distillation for fast and accurate DNA sequence correction
- Title(参考訳): 迅速かつ正確なDNA配列修正のための知識蒸留
- Authors: Anastasiya Belyaeva, Joel Shor, Daniel E. Cook, Kishwar Shafin, Daniel
Liu, Armin T\"opfer, Aaron M. Wenger, William J. Rowell, Howard Yang, Alexey
Kolesnikov, Cory Y. McLean, Maria Nattestad, Andrew Carroll, Pi-Chuan Chang
- Abstract要約: 蒸留DeepConsensusは、シーケンス補正のための蒸留トランス-エンコーダモデルである。
ランタイム制約を念頭に置いて、HMMベースのメソッドを改善します。
- 参考スコア(独自算出の注目度): 3.7373616362375204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate genome sequencing can improve our understanding of biology and the
genetic basis of disease. The standard approach for generating DNA sequences
from PacBio instruments relies on HMM-based models. Here, we introduce
Distilled DeepConsensus - a distilled transformer-encoder model for sequence
correction, which improves upon the HMM-based methods with runtime constraints
in mind. Distilled DeepConsensus is 1.3x faster and 1.5x smaller than its
larger counterpart while improving the yield of high quality reads (Q30) over
the HMM-based method by 1.69x (vs. 1.73x for larger model). With improved
accuracy of genomic sequences, Distilled DeepConsensus improves downstream
applications of genomic sequence analysis such as reducing variant calling
errors by 39% (34% for larger model) and improving genome assembly quality by
3.8% (4.2% for larger model). We show that the representations learned by
Distilled DeepConsensus are similar between faster and slower models.
- Abstract(参考訳): 正確なゲノムシークエンシングは、生物学の理解と疾患の遺伝的基盤を改善することができる。
PacBioの機器からDNA配列を生成する標準的なアプローチは、HMMベースのモデルに依存している。
本稿では,実行時制約を考慮したhmmに基づく手法を改良した,シーケンス補正用蒸留トランスフォーマエンコーダモデルであるdeepconsensusを提案する。
蒸留されたDeepConsensusは1.3倍高速で1.5倍小さく、HMM法よりも高品質な読み出し(Q30)を1.69倍改善した(大型モデルでは1.73倍)。
ゲノム配列の精度の向上により、Distilled DeepConsensusは、可変呼び出しエラーを39%(大型モデルでは34%)減らし、ゲノム組立品質を3.8%(大型モデルでは4.2%)改善するなど、ゲノム配列解析の下流応用を改善した。
Distilled DeepConsensusによって学習された表現は、高速モデルと遅いモデルに類似していることを示す。
関連論文リスト
- Prediction by Machine Learning Analysis of Genomic Data Phenotypic Frost Tolerance in Perccottus glenii [7.412214379486083]
我々はPerccottus gleniiの遺伝子配列解析に機械学習技術を用いる。
我々はRandom Forest, LightGBM, XGBoost, Decision Treeの4つの分類モデルを構築した。
これらの分類モデルで使用されるデータセットは、National Center for Biotechnology Informationデータベースから抽出された。
論文 参考訳(メタデータ) (2024-10-11T14:45:47Z) - Toward Capturing Genetic Epistasis From Multivariate Genome-Wide Association Studies Using Mixed-Precision Kernel Ridge Regression [4.356528958652799]
英国バイオバンクの305K患者を対象としたGWAS(Genome-Wide Association Studies)の出力精度保存混合精度計算の性能を向上する。
低精度GPU演算によるデータ移動ゲインの強化によるタイル中心適応精度線形代数技術
ほぼ完全なAlpsシステム上で1.805の混合精度ExaOp/sで、最先端のCPU専用REGENIE GWASソフトウェアより5桁高い4精度のColeskyベースの解法を新たに導入する。
論文 参考訳(メタデータ) (2024-09-03T08:50:42Z) - Hybrid Deep Convolutional Neural Networks Combined with Autoencoders And Augmented Data To Predict The Look-Up Table 2006 [2.082445711353476]
本研究では、自己エンコーダとデータ拡張技術により強化されたハイブリッドディープ畳み込みニューラルネットワーク(DCNN)モデルの開発について検討する。
オリジナルの入力機能を3つの異なるオートエンコーダ構成で拡張することにより、モデルの予測能力は大幅に改善された。
論文 参考訳(メタデータ) (2024-08-26T20:45:07Z) - A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive
Coding Networks [65.34977803841007]
予測符号化ネットワークは、ベイズ統計学と神経科学の両方にルーツを持つ神経科学にインスパイアされたモデルである。
シナプス重みに対する更新規則の時間的スケジュールを変更するだけで、元の規則よりもずっと効率的で安定したアルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-16T00:11:04Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - Guiding Deep Molecular Optimization with Genetic Exploration [79.50698140997726]
本稿では,深層ニューラルネットワーク(DNN)を訓練し,高次分子を生成する,遺伝的専門家誘導学習(GEGL)を提案する。
大規模な実験により、GEGLは最先端の手法よりも大幅に改善されていることが示された。
論文 参考訳(メタデータ) (2020-07-04T05:01:26Z) - ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。
ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文 参考訳(メタデータ) (2020-06-01T05:00:51Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z) - GeneCAI: Genetic Evolution for Acquiring Compact AI [36.04715576228068]
ディープニューラルネットワーク(DNN)は、より高い推論精度を達成するために、より複雑なアーキテクチャへと進化している。
モデル圧縮技術は、リソース制限されたモバイルデバイスにそのような計算集約的なアーキテクチャを効率的に展開するために利用することができる。
本稿では,階層ごとの圧縮ハイパーパラメータのチューニング方法を自動的に学習する新しい最適化手法であるGeneCAIを紹介する。
論文 参考訳(メタデータ) (2020-04-08T20:56:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。