論文の概要: GapPredict: A Language Model for Resolving Gaps in Draft Genome
Assemblies
- arxiv url: http://arxiv.org/abs/2105.10552v2
- Date: Tue, 25 May 2021 00:55:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 09:09:20.600415
- Title: GapPredict: A Language Model for Resolving Gaps in Draft Genome
Assemblies
- Title(参考訳): GapPredict: ドラフトゲノム集合におけるギャップ解消のための言語モデル
- Authors: Eric Chen, Justin Chu, Jessica Zhang, Rene L. Warren, Inanc Birol
- Abstract要約: キャラクタレベルの言語モデルを用いて,足場間隙における未解決ヌクレオチドを予測するツールであるGapPredictを紹介する。
我々はGapPredictを最先端のギャップ埋めツールと比較し、前者は65.6%のギャップを埋めることができることを示した。
- 参考スコア(独自算出の注目度): 0.13999481573773073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Short-read DNA sequencing instruments can yield over 1e+12 bases per run,
typically composed of reads 150 bases long. Despite this high throughput, de
novo assembly algorithms have difficulty reconstructing contiguous genome
sequences using short reads due to both repetitive and difficult-to-sequence
regions in these genomes. Some of the short read assembly challenges are
mitigated by scaffolding assembled sequences using paired-end reads. However,
unresolved sequences in these scaffolds appear as "gaps". Here, we introduce
GapPredict, a tool that uses a character-level language model to predict
unresolved nucleotides in scaffold gaps. We benchmarked GapPredict against the
state-of-the-art gap-filling tool Sealer, and observed that the former can fill
65.6% of the sampled gaps that were left unfilled by the latter, demonstrating
the practical utility of deep learning approaches to the gap-filling problem in
genome sequence assembly.
- Abstract(参考訳): 短読DNAシークエンシング装置は、1ランあたり1e+12塩基以上、通常150塩基以上からなる。
この高いスループットにもかかわらず、de novoアセンブリーアルゴリズムは、これらのゲノムの繰り返し領域と難易度領域の両方により、短い読み込みを用いて連続したゲノム配列の再構築が困難である。
短い読み取りアセンブリの課題のいくつかは、ペアエンド読み込みを使用して組み立てられたシーケンスを足場にすることで軽減される。
しかし、これらの足場の未解決配列は「ギャップ」として現れる。
本稿では,キャラクタレベル言語モデルを用いて足場ギャップ内の未解決ヌクレオチドを予測するツールであるgappredictを紹介する。
我々は,最先端のギャップ充填ツールシールに対するgap予測をベンチマークし,後者が未充填で残したサンプルギャップの65.6%を前者が満たせることを観察し,ゲノム配列集合におけるギャップ充填問題に対するディープラーニングアプローチの実用性を示した。
関連論文リスト
- Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - Closing the Gap Between the Upper Bound and the Lower Bound of Adam's
Iteration Complexity [51.96093077151991]
我々はAdamの新しい収束保証を導出し、$L$-smooth条件と有界雑音分散仮定のみを導出する。
本証明は,運動量と適応学習率の絡み合いを扱うために,新しい手法を利用する。
論文 参考訳(メタデータ) (2023-10-27T09:16:58Z) - Embed-Search-Align: DNA Sequence Alignment using Transformer Models [2.48439258515764]
我々はTransformerモデルのシーケンスアライメントタスクを"Embed-Search-Align"タスクとしてフレーミングすることでギャップを埋める。
新規なレファレンスフリーDNA埋め込みモデルは、共有ベクトル空間に投影される読み取りおよび参照フラグメントの埋め込みを生成する。
DNA-ESAは、BowtieやBWA-Memといった従来の手法に匹敵する、ヒトゲノム(3gb)に250長の読み書きを合わせると99%正確である。
論文 参考訳(メタデータ) (2023-09-20T06:30:39Z) - Blind Biological Sequence Denoising with Self-Supervised Set Learning [34.41665328319336]
クリーンソースのシーケンスラベルを直接観察することなく、シーケンスの集合を盲目的に識別する新しい手法を提案する。
提案手法であるSelf-Supervised Set Learning (SSSL) は,サブリードを埋め込み空間に集約し,サブリードの中間点として潜時空間とシークエンス空間の両方に1セットの埋め込みを推定する。
長読DNAデータのシミュレーション実験では、SSSLメソッドは17%のエラーで$leq 6$subreadsの小さな読み込みを、8%のエラーで$>6$subreadsの大規模な読み込みを、最高のベースラインよりも8%少ないエラーで識別する。
論文 参考訳(メタデータ) (2023-09-04T15:35:04Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - DNABERT-2: Efficient Foundation Model and Benchmark For Multi-Species Genome [10.051595222470304]
我々は、k-merトークン化によって導入された計算とサンプルの非効率性が、大規模なゲノム基盤モデルの開発における主要な障害であると主張している。
我々は、k-merトークン化をByte Pair$に置き換えることを提案するゲノムトークン化に関する概念的および実証的な洞察を提供する。
DNABERT-2は、効率的なトークン化を施し、入力長制約を克服するために複数の戦略を用いるゲノム基盤モデルである。
論文 参考訳(メタデータ) (2023-06-26T18:43:46Z) - Improving Variational Autoencoders with Density Gap-based Regularization [16.770753948524167]
変分オートエンコーダ(VAE)は、潜時表現学習と潜時指向生成のためのNLPにおける強力な非教師なし学習フレームワークの1つである。
実際には、ELBoの最適化は、全ての試料の後方分布を同じ分解された局所最適値、すなわち後崩壊またはKL消滅に収束させる。
本稿では, 階層化後分布と先行分布との確率的密度ギャップに基づく新しい正規化により, 両問題に対処する新たな学習目標を提案する。
論文 参考訳(メタデータ) (2022-11-01T08:17:10Z) - A Non-monotonic Self-terminating Language Model [62.93465126911921]
本稿では,不完全復号アルゴリズムによる非終端列の問題に焦点をあてる。
まず、グリーディ探索、トップ$kのサンプリング、核サンプリングを含む不完全確率復号アルゴリズムを定義する。
次に,単調な終端確率の制約を緩和する非単調な自己終端言語モデルを提案する。
論文 参考訳(メタデータ) (2022-10-03T00:28:44Z) - Learning to Untangle Genome Assembly with Graph Convolutional Networks [17.227634756670835]
我々は,グラフ畳み込みネットワークをトレーニングし,それらを経由する正しい経路を見つけることによって,アセンブリグラフを解決するための新しい学習フレームワークを導入する。
実験の結果、単一の染色体からのみ生成された模擬グラフに基づいて訓練されたモデルが、他の全ての染色体を著しく解決できることがわかった。
論文 参考訳(メタデータ) (2022-06-01T04:14:25Z) - Lattice-Based Methods Surpass Sum-of-Squares in Clustering [98.46302040220395]
クラスタリングは教師なし学習における基本的なプリミティブである。
最近の研究は、低次手法のクラスに対する低い境界を確立している。
意外なことに、この特定のクラスタリングモデルのtextitdoesは、統計的-計算的ギャップを示さない。
論文 参考訳(メタデータ) (2021-12-07T18:50:17Z) - Consistency of a Recurrent Language Model With Respect to Incomplete
Decoding [67.54760086239514]
逐次言語モデルから無限長のシーケンスを受信する問題について検討する。
不整合に対処する2つの対策として、トップkと核サンプリングの一貫性のある変種と、自己終端の繰り返し言語モデルを提案する。
論文 参考訳(メタデータ) (2020-02-06T19:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。