論文の概要: TargetCall: Eliminating the Wasted Computation in Basecalling via
Pre-Basecalling Filtering
- arxiv url: http://arxiv.org/abs/2212.04953v2
- Date: Thu, 14 Sep 2023 15:42:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 19:42:51.857619
- Title: TargetCall: Eliminating the Wasted Computation in Basecalling via
Pre-Basecalling Filtering
- Title(参考訳): TargetCall:プリベースコールフィルタによるベースコールにおけるムダ計算の排除
- Authors: Meryem Banu Cavlak, Gagandeep Singh, Mohammed Alser, Can Firtina,
Jo\"el Lindegger, Mohammad Sadrosadati, Nika Mansouri Ghiasi, Can Alkan, Onur
Mutlu
- Abstract要約: 最先端のベースコールは、高度なベースコール精度を達成するために複雑なディープラーニングモデルを使用する。
多くのアプリケーションでは、ほとんどの読み取りは参照ゲノムと一致しない。
我々は,ベースコールにおける無駄な計算をなくすための,最初のベースコール前フィルタであるTargetCallを提案する。
- 参考スコア(独自算出の注目度): 9.82774250269274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Basecalling is an essential step in nanopore sequencing analysis where the
raw signals of nanopore sequencers are converted into nucleotide sequences,
i.e., reads. State-of-the-art basecallers employ complex deep learning models
to achieve high basecalling accuracy. This makes basecalling
computationally-inefficient and memory-hungry; bottlenecking the entire genome
analysis pipeline. However, for many applications, the majority of reads do no
match the reference genome of interest (i.e., target reference) and thus are
discarded in later steps in the genomics pipeline, wasting the basecalling
computation. To overcome this issue, we propose TargetCall, the first
pre-basecalling filter to eliminate the wasted computation in basecalling.
TargetCall's key idea is to discard reads that will not match the target
reference (i.e., off-target reads) prior to basecalling. TargetCall consists of
two main components: (1) LightCall, a lightweight neural network basecaller
that produces noisy reads; and (2) Similarity Check, which labels each of these
noisy reads as on-target or off-target by matching them to the target
reference. TargetCall aims to filter out all off-target reads before
basecalling. The highly-accurate but slow basecalling is performed only on the
raw signals whose noisy reads are labeled as on-target. Our thorough
experimental evaluations using both real and simulated data show that
TargetCall 1) improves the end-to-end basecalling performance while maintaining
high sensitivity in keeping on-target reads, 2) maintains high accuracy in
downstream analysis, 3) precisely filters out up to 94.71% of off-target reads,
and 4) achieves better performance, throughput, sensitivity, precision, and
generality compared to prior works. We open-source TargetCall at
https://github.com/CMU-SAFARI/TargetCall
- Abstract(参考訳): 塩基呼び出しは、ナノホールシークエンサーの生信号がヌクレオチド配列に変換されるナノホールシークエンシング解析において不可欠なステップである。
最先端のbasecallerは複雑なディープラーニングモデルを使用して高いbasecalling精度を実現している。
これにより、塩基呼び出しは非効率でメモリ不足になり、ゲノム解析パイプライン全体のボトルネックとなる。
しかし、多くのアプリケーションでは、リードの大部分は関心のある参照ゲノム(すなわち標的参照)と一致せず、ゲノムパイプラインの後のステップで破棄され、ベースコール計算を浪費する。
そこで,本研究では,ベースコール時の無駄な計算を解消する最初のプリベースコールフィルタであるtargetcallを提案する。
TargetCallのキーとなるアイデアは、ベースコールの前にターゲット参照(すなわち、オフターゲット読み取り)にマッチしない読み込みを破棄することである。
targetcallは、2つの主要なコンポーネントで構成されている:(1)lightcall、騒がしい読み取りを生成する軽量ニューラルネットワークベースコール、(2)これらの騒がしい読み込みをターゲット参照にマッチさせてオンターゲットまたはオフターゲットとしてラベル付けする類似性チェック。
TargetCallは、ベースコール前にすべてのターゲット外の読み込みをフィルタリングする。
ノイズの多い読み出しをオンターゲットとしてラベル付けした生信号のみ、高精度で遅いベースコールを行う。
実データとシミュレーションデータの両方を用いた徹底的な実験結果から
1) 目標読み出しにおける高感度を維持しつつ, エンドツーエンドのベースコール性能を向上する。
2)下流解析における高精度性を維持する。
3) ターゲット外読み取りの94.71%を正確にフィルタリングし、
4) 以前の作業と比べてパフォーマンス、スループット、感度、精度、汎用性が向上します。
TargetCallはhttps://github.com/CMU-SAFARI/TargetCallでオープンソース化しました。
関連論文リスト
- Combined Static Analysis and Machine Learning Prediction for Application Debloating [2.010931857032585]
我々は静的保証付き予測デブロット(PDSG)の枠組みを開発する。
PDSGは、呼び出し元から発せられる動的な呼び出し元セットを予測し、誤った予測を解決するために、コールチェーンの静的不変量に基づいた軽量な監査を使用する。
SPEC CPU 2017において、同様の技術の中で最高のガジェット削減を実現し、平均して82.5%のガジェットを削減した。
論文 参考訳(メタデータ) (2024-03-30T00:14:17Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [54.27040631527217]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
FoC-BinLLMは、ROUGE-LスコアでChatGPTを14.61%上回った。
FoC-Simは52%高いRecall@1で過去のベストメソッドを上回っている。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - SpirDet: Towards Efficient, Accurate and Lightweight Infrared Small
Target Detector [60.42293239557962]
我々は、赤外線小ターゲットの効率的な検出のための新しいアプローチであるSpirDetを提案する。
新しいデュアルブランチスパースデコーダを用いて特徴写像を復元する。
大規模な実験により、提案されたSpirDetは最先端モデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2024-02-08T05:06:14Z) - GREC: Generalized Referring Expression Comprehension [52.83101289813662]
本研究は、GREC(Generalized Referring Expression)と呼ばれる新しいベンチマークを導入する。
このベンチマークは、任意の数のターゲットオブジェクトを記述する式を許可することで、古典的なRECを拡張している。
この目標を達成するため、私たちはgRefCOCOと呼ばれる最初の大規模GRECデータセットを構築しました。
論文 参考訳(メタデータ) (2023-08-30T17:58:50Z) - AcroFOD: An Adaptive Method for Cross-domain Few-shot Object Detection [59.10314662986463]
クロスドメインの少数ショットオブジェクト検出は、いくつかの注釈付きターゲットデータで対象ドメイン内のオブジェクト検出器を適応することを目的としている。
提案手法は,複数のベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-09-22T10:23:40Z) - iCallee: Recovering Call Graphs for Binaries [31.73821825871851]
既存のバイナリの間接的な呼び出し元認識ソリューションは、すべて高い偽陽性と負の値を持ち、コールグラフは不正確である。
我々は,質問応答アプリケーションの進歩に触発された,シームズニューラルネットワークに基づく新しい解iCalleeを提案する。
我々はiCalleeのプロトタイプを実装し、いくつかのターゲットグループで評価した。
論文 参考訳(メタデータ) (2021-11-02T08:08:18Z) - On-target Adaptation [82.77980951331854]
ドメイン適応は、Emphtargetドメインでのトレーニングとテストの間のシフトを軽減することを目指している。
ほとんどの適応法は、ソースデータとターゲットデータに対する共同最適化によるソースデータに依存している。
対象データから純粋に表現を学習するオン・ターゲット適応による大幅な改善を示す。
論文 参考訳(メタデータ) (2021-09-02T17:04:18Z) - Dynamic Pooling Improves Nanopore Base Calling Accuracy [0.0]
ナノ孔シークエンシングでは、DNA分子がシークエンシング孔を通過すると電気信号が測定される。
これまで最も成功したナノホールベース呼び出し者は、畳み込みニューラルネットワーク(cnn)を使用してタスクを実行している。
本論文では,この問題を適応的に調整することで解決するニューラル・ネットワーク・コンポーネントである動的プーリングを提案する。
論文 参考訳(メタデータ) (2021-05-16T21:39:17Z) - OVANet: One-vs-All Network for Universal Domain Adaptation [78.86047802107025]
既存のメソッドは、検証または未知のサンプルの事前定義された比率に基づいて未知のサンプルを拒否するしきい値を手動で設定します。
本稿では,ソースサンプルを用いて閾値を学習し,対象領域に適応する手法を提案する。
私たちの考えは、ソースドメインの最小クラス間距離は、ターゲットの既知のか未知かを決定するための良いしきい値であるべきです。
論文 参考訳(メタデータ) (2021-04-07T18:36:31Z) - Nanopore Base Calling on the Edge [0.0]
DeepNano-coralは、Guppyベース呼び出しの高速モードよりも精度が若干良く、シークエンシング中のリアルタイムベース呼び出しを実現する。
非常にエネルギー効率が良く、消費電力はわずか10Wである。
論文 参考訳(メタデータ) (2020-11-09T10:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。