論文の概要: TargetCall: Eliminating the Wasted Computation in Basecalling via
Pre-Basecalling Filtering
- arxiv url: http://arxiv.org/abs/2212.04953v1
- Date: Fri, 9 Dec 2022 16:03:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 14:47:07.891237
- Title: TargetCall: Eliminating the Wasted Computation in Basecalling via
Pre-Basecalling Filtering
- Title(参考訳): TargetCall:プリベースコールフィルタによるベースコールにおけるムダ計算の排除
- Authors: Meryem Banu Cavlak, Gagandeep Singh, Mohammed Alser, Can Firtina,
Jo\"el Lindegger, Mohammad Sadrosadati, Nika Mansouri Ghiasi, Can Alkan, Onur
Mutlu
- Abstract要約: 最先端のベースコールは、高度なベースコール精度を達成するために複雑なディープラーニングモデルを使用する。
多くのアプリケーションでは、ほとんどの読み取りは参照ゲノムと一致しない。
我々は,最初の高速かつ広く適用可能なプレベースコールフィルタであるTargetCallを提案する。
- 参考スコア(独自算出の注目度): 9.79355379051085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Basecalling is an essential step in nanopore sequencing analysis where the
raw signals of nanopore sequencers are converted into nucleotide sequences,
i.e., reads. State-of-the-art basecallers employ complex deep learning models
to achieve high basecalling accuracy. This makes basecalling
computationally-inefficient and memory-hungry; bottlenecking the entire genome
analysis pipeline. However, for many applications, the majority of reads do no
match the reference genome of interest (i.e., target reference) and thus are
discarded in later steps in the genomics pipeline, wasting the basecalling
computation. To overcome this issue, we propose TargetCall, the first fast and
widely-applicable pre-basecalling filter to eliminate the wasted computation in
basecalling. TargetCall's key idea is to discard reads that will not match the
target reference (i.e., off-target reads) prior to basecalling. TargetCall
consists of two main components: (1) LightCall, a lightweight neural network
basecaller that produces noisy reads; and (2) Similarity Check, which labels
each of these noisy reads as on-target or off-target by matching them to the
target reference. TargetCall filters out all off-target reads before
basecalling; and the highly-accurate but slow basecalling is performed only on
the raw signals whose noisy reads are labeled as on-target. Our thorough
experimental evaluations using both real and simulated data show that
TargetCall 1) improves the end-to-end basecalling performance of the
state-of-the-art basecaller by 3.31x while maintaining high (98.88%)
sensitivity in keeping on-target reads, 2) maintains high accuracy in
downstream analysis, 3) precisely filters out up to 94.71% of off-target reads,
and 4) achieves better performance, sensitivity, and generality compared to
prior works. We freely open-source TargetCall at
https://github.com/CMU-SAFARI/TargetCall.
- Abstract(参考訳): 塩基呼び出しは、ナノホールシークエンサーの生信号がヌクレオチド配列に変換されるナノホールシークエンシング解析において不可欠なステップである。
最先端のbasecallerは複雑なディープラーニングモデルを使用して高いbasecalling精度を実現している。
これにより、塩基呼び出しは非効率でメモリ不足になり、ゲノム解析パイプライン全体のボトルネックとなる。
しかし、多くのアプリケーションでは、リードの大部分は関心のある参照ゲノム(すなわち標的参照)と一致せず、ゲノムパイプラインの後のステップで破棄され、ベースコール計算を浪費する。
そこで本研究では,この問題を解決するために,最初の高速かつ広く適用可能なプリベースコールフィルタであるtargetcallを提案する。
TargetCallのキーとなるアイデアは、ベースコールの前にターゲット参照(すなわち、オフターゲット読み取り)にマッチしない読み込みを破棄することである。
targetcallは、2つの主要なコンポーネントで構成されている:(1)lightcall、騒がしい読み取りを生成する軽量ニューラルネットワークベースコール、(2)これらの騒がしい読み込みをターゲット参照にマッチさせてオンターゲットまたはオフターゲットとしてラベル付けする類似性チェック。
ターゲットコールは、ベースコールの前にすべてのオフターゲット読み込みをフィルタリングし、ノイズのある読み出しをオンターゲットとしてラベル付けされた生信号のみに高い精度だが遅いベースコールを行う。
実データとシミュレーションデータの両方を用いた徹底的な実験結果から
1) 高感度(98.88%)を維持しながら、最先端のベースコール器のエンドツーエンドのベースコール性能を3.31倍向上させる。
2)下流解析における高精度性を維持する。
3) ターゲット外読み取りの94.71%を正確にフィルタリングし、
4) 従来の作業よりも性能,感度,汎用性が向上する。
TargetCall は https://github.com/CMU-SAFARI/TargetCall でオープンソース公開しています。
関連論文リスト
- VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - Combined Static Analysis and Machine Learning Prediction for Application Debloating [2.010931857032585]
我々は静的保証付き予測デブロット(PDSG)の枠組みを開発する。
PDSGは、呼び出し元から発せられる動的な呼び出し元セットを予測し、誤った予測を解決するために、コールチェーンの静的不変量に基づいた軽量な監査を使用する。
SPEC CPU 2017において、同様の技術の中で最高のガジェット削減を実現し、平均して82.5%のガジェットを削減した。
論文 参考訳(メタデータ) (2024-03-30T00:14:17Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [54.27040631527217]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。
次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - SpirDet: Towards Efficient, Accurate and Lightweight Infrared Small
Target Detector [60.42293239557962]
我々は、赤外線小ターゲットの効率的な検出のための新しいアプローチであるSpirDetを提案する。
新しいデュアルブランチスパースデコーダを用いて特徴写像を復元する。
大規模な実験により、提案されたSpirDetは最先端モデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2024-02-08T05:06:14Z) - GREC: Generalized Referring Expression Comprehension [52.83101289813662]
本研究は、GREC(Generalized Referring Expression)と呼ばれる新しいベンチマークを導入する。
このベンチマークは、任意の数のターゲットオブジェクトを記述する式を許可することで、古典的なRECを拡張している。
この目標を達成するため、私たちはgRefCOCOと呼ばれる最初の大規模GRECデータセットを構築しました。
論文 参考訳(メタデータ) (2023-08-30T17:58:50Z) - HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z) - iCallee: Recovering Call Graphs for Binaries [31.73821825871851]
既存のバイナリの間接的な呼び出し元認識ソリューションは、すべて高い偽陽性と負の値を持ち、コールグラフは不正確である。
我々は,質問応答アプリケーションの進歩に触発された,シームズニューラルネットワークに基づく新しい解iCalleeを提案する。
我々はiCalleeのプロトタイプを実装し、いくつかのターゲットグループで評価した。
論文 参考訳(メタデータ) (2021-11-02T08:08:18Z) - Dynamic Pooling Improves Nanopore Base Calling Accuracy [0.0]
ナノ孔シークエンシングでは、DNA分子がシークエンシング孔を通過すると電気信号が測定される。
これまで最も成功したナノホールベース呼び出し者は、畳み込みニューラルネットワーク(cnn)を使用してタスクを実行している。
本論文では,この問題を適応的に調整することで解決するニューラル・ネットワーク・コンポーネントである動的プーリングを提案する。
論文 参考訳(メタデータ) (2021-05-16T21:39:17Z) - Breaking the Deadly Triad with a Target Network [80.82586530205776]
致命的な三脚とは、政治以外の学習、関数近似、ブートストラップを同時に使用するときの強化学習アルゴリズムの不安定性を指す。
我々は,二段階最適化を使わずに,非制限的かつ変化的な動作ポリシーの下で,最初の収束線形$Q$-learningアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-01-21T21:50:10Z) - Nanopore Base Calling on the Edge [0.0]
DeepNano-coralは、Guppyベース呼び出しの高速モードよりも精度が若干良く、シークエンシング中のリアルタイムベース呼び出しを実現する。
非常にエネルギー効率が良く、消費電力はわずか10Wである。
論文 参考訳(メタデータ) (2020-11-09T10:36:43Z) - Helix: Algorithm/Architecture Co-design for Accelerating Nanopore Genome
Base-calling [19.269085366989078]
最先端のベースコールはディープニューラルネットワーク(DNN)を使用して、ナノ孔シーケンサによって生成された電気信号をデジタルDNAシンボルに変換する。
DNNベースのベースコールは、ナノ孔シークエンシングパイプラインの総実行時間の44.5%を消費する。
本稿では,ナノ孔ベースの呼び出しを効率よく正確に高速化するアルゴリズムとアーキテクチャを共同設計したHelixを提案する。
論文 参考訳(メタデータ) (2020-08-04T22:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。