論文の概要: Lerna: Transformer Architectures for Configuring Error Correction Tools
for Short- and Long-Read Genome Sequencing
- arxiv url: http://arxiv.org/abs/2112.10068v1
- Date: Sun, 19 Dec 2021 05:59:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-26 09:07:57.895253
- Title: Lerna: Transformer Architectures for Configuring Error Correction Tools
for Short- and Long-Read Genome Sequencing
- Title(参考訳): Lerna: 短文と長文のゲノムシークエンシングのためのエラー訂正ツールを構成するトランスフォーマーアーキテクチャ
- Authors: Atul Sharma, Pranjal Jain, Ashraf Mahgoub, Zihan Zhou, Kanak Mahadik,
and Somali Chaterji
- Abstract要約: 我々は、k-merベースのECツールの自動構成にLernaを導入する。
最適なk-mer値は、同じECツールであっても、異なるデータセットに対して異なる可能性があることを示す。
また、注目に基づくモデルでは、パイプライン全体のランタイムが大幅に改善されていることも示しています。
- 参考スコア(独自算出の注目度): 5.911600622951255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequencing technologies are prone to errors, making error correction (EC)
necessary for downstream applications. EC tools need to be manually configured
for optimal performance. We find that the optimal parameters (e.g., k-mer size)
are both tool- and dataset-dependent. Moreover, evaluating the performance
(i.e., Alignment-rate or Gain) of a given tool usually relies on a reference
genome, but quality reference genomes are not always available. We introduce
Lerna for the automated configuration of k-mer-based EC tools. Lerna first
creates a language model (LM) of the uncorrected genomic reads; then,
calculates the perplexity metric to evaluate the corrected reads for different
parameter choices. Next, it finds the one that produces the highest alignment
rate without using a reference genome. The fundamental intuition of our
approach is that the perplexity metric is inversely correlated with the quality
of the assembly after error correction. Results: First, we show that the best
k-mer value can vary for different datasets, even for the same EC tool. Second,
we show the gains of our LM using its component attention-based transformers.
We show the model's estimation of the perplexity metric before and after error
correction. The lower the perplexity after correction, the better the k-mer
size. We also show that the alignment rate and assembly quality computed for
the corrected reads are strongly negatively correlated with the perplexity,
enabling the automated selection of k-mer values for better error correction,
and hence, improved assembly quality. Additionally, we show that our
attention-based models have significant runtime improvement for the entire
pipeline -- 18X faster than previous works, due to parallelizing the attention
mechanism and the use of JIT compilation for GPU inferencing.
- Abstract(参考訳): シーケンス技術はエラーを起こしやすいため、下流アプリケーションにはエラー訂正(EC)が必要である。
ECツールは、最適なパフォーマンスのために手動で設定する必要がある。
最適なパラメータ(例えばk-merサイズ)はツールとデータセットの両方に依存しています。
さらに、特定のツールの性能評価(アライメントレートやゲイン)は、通常基準ゲノムに依存するが、品質基準ゲノムは必ずしも利用可能ではない。
我々は、k-merベースのecツールの自動構成にlernaを導入する。
Lernaはまず、訂正されていないゲノム読み込みの言語モデル(LM)を作成し、その後、パープレキシティメトリックを計算して、異なるパラメータの選択に対して修正された読み込みを評価する。
次に、基準ゲノムを使わずに最も高いアライメント率を生成するものを見つける。
提案手法の基本的な直観は、パープレキシティ計量が誤差補正後の組立の質と逆相関していることである。
結果: まず、最高のk-mer値は、同じecツールでも異なるデータセットで変更可能であることを示します。
第2に、そのコンポーネント注意に基づく変換器を用いて、LMの利得を示す。
本稿では,誤り訂正前後における過度指標の推定について述べる。
補正後のパープレキシティが低いほど、k-merサイズが良くなる。
また、補正された読み出しに対して算出されたアライメントレートと組立品質は、過度と強く負の相関関係にあり、エラー訂正のためのk-mer値の自動選択が可能となり、その結果、組立品質が向上することを示した。
さらに,アテンション機構の並列化と,gpu参照のためのjitコンパイルの利用により,アテンションベースモデルがパイプライン全体の実行時間を大幅に改善していることも分かりました。
関連論文リスト
- LM-Combiner: A Contextual Rewriting Model for Chinese Grammatical Error Correction [49.0746090186582]
過剰補正は中国の文法的誤り訂正(CGEC)タスクにおいて重要な問題である。
モデルアンサンブル法による最近の研究は、過剰補正を効果的に軽減し、ECCシステムの精度を向上させることができる。
本稿では,GECシステム出力の過度補正をモデルアンサンブルなしで直接修正できる書き換えモデルLM-Combinerを提案する。
論文 参考訳(メタデータ) (2024-03-26T06:12:21Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Accelerating Attention through Gradient-Based Learned Runtime Pruning [9.109136535767478]
自己認識は、トランスフォーマーベースの自然言語処理モデルにおいて、最先端の精度を実現する重要な手段である。
本稿では、学習の損失関数に組み込まれたソフトな微分可能正規化器による探索を定式化する。
我々は、ビットレベルの早期終了マイクロアーキテクチャ機構を持つトランスフォーマー言語モデルに対して、LeOPArdと呼ばれるビットシリアルアーキテクチャを考案した。
論文 参考訳(メタデータ) (2022-04-07T05:31:13Z) - Correct-N-Contrast: A Contrastive Approach for Improving Robustness to
Spurious Correlations [59.24031936150582]
豪華な相関関係は、堅牢な機械学習にとって大きな課題となる。
経験的リスク最小化(ERM)で訓練されたモデルは、クラスラベルとスプリアス属性の相関に依存することを学習することができる。
CNC(Correct-N-Contrast, Correct-N-Contrast)を提案する。
論文 参考訳(メタデータ) (2022-03-03T05:03:28Z) - MBCT: Tree-Based Feature-Aware Binning for Individual Uncertainty
Calibration [29.780204566046503]
我々はMultiple Boosting Trees (MBCT)と呼ばれる特徴認識型バイナリフレームワークを提案する。
MBCTは非単調であり,学習可能なビンニング方式と個々のキャリブレーションにより,順序精度が向上する可能性がある。
その結果,本手法はキャリブレーション誤差と順序精度の両方で競合するモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-02-09T08:59:16Z) - Newer is not always better: Rethinking transferability metrics, their
peculiarities, stability and performance [5.650647159993238]
小さなカスタマイズされたデータセット上で、大規模で事前訓練された画像と言語モデルの微調整が人気を集めている。
共分散推定における統計的問題により,Hスコアの性能が低下することが示唆された。
そこで我々は,そのような設定における相対的精度に対する相関性能を補正し,評価することを推奨する。
論文 参考訳(メタデータ) (2021-10-13T17:24:12Z) - Tail-to-Tail Non-Autoregressive Sequence Prediction for Chinese
Grammatical Error Correction [49.25830718574892]
本稿では,Tail-to-Tail (textbfTtT) という新しいフレームワークを提案する。
ほとんどのトークンが正しいので、ソースからターゲットに直接転送でき、エラー位置を推定して修正することができる。
標準データセット、特に可変長データセットに関する実験結果は、文レベルの精度、精度、リコール、F1-Measureの観点からTtTの有効性を示す。
論文 参考訳(メタデータ) (2021-06-03T05:56:57Z) - Localized Calibration: Metrics and Recalibration [133.07044916594361]
完全大域キャリブレーションと完全個別化キャリブレーションのギャップにまたがる細粒度キャリブレーション指標を提案する。
次に,局所再校正法であるLoReを導入し,既存の校正法よりもLCEを改善する。
論文 参考訳(メタデータ) (2021-02-22T07:22:12Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Mix-n-Match: Ensemble and Compositional Methods for Uncertainty
Calibration in Deep Learning [21.08664370117846]
我々は,Mix-n-Matchキャリブレーション戦略が,データ効率と表現力を大幅に向上することを示す。
標準評価プラクティスの潜在的な問題も明らかにします。
我々の手法はキャリブレーションと評価タスクの両方において最先端のソリューションより優れている。
論文 参考訳(メタデータ) (2020-03-16T17:00:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。