論文の概要: Learning to Untangle Genome Assembly with Graph Convolutional Networks
- arxiv url: http://arxiv.org/abs/2206.00668v1
- Date: Wed, 1 Jun 2022 04:14:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 14:55:15.389203
- Title: Learning to Untangle Genome Assembly with Graph Convolutional Networks
- Title(参考訳): グラフ畳み込みネットワークを用いたゲノム組立のアンタングル学習
- Authors: Lovro Vr\v{c}ek, Xavier Bresson, Thomas Laurent, Martin Schmitz, Mile
\v{S}iki\'c
- Abstract要約: 我々は,グラフ畳み込みネットワークをトレーニングし,それらを経由する正しい経路を見つけることによって,アセンブリグラフを解決するための新しい学習フレームワークを導入する。
実験の結果、単一の染色体からのみ生成された模擬グラフに基づいて訓練されたモデルが、他の全ての染色体を著しく解決できることがわかった。
- 参考スコア(独自算出の注目度): 17.227634756670835
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A quest to determine the complete sequence of a human DNA from telomere to
telomere started three decades ago and was finally completed in 2021. This
accomplishment was a result of a tremendous effort of numerous experts who
engineered various tools and performed laborious manual inspection to achieve
the first gapless genome sequence. However, such method can hardly be used as a
general approach to assemble different genomes, especially when the assembly
speed is critical given the large amount of data. In this work, we explore a
different approach to the central part of the genome assembly task that
consists of untangling a large assembly graph from which a genomic sequence
needs to be reconstructed. Our main motivation is to reduce human-engineered
heuristics and use deep learning to develop more generalizable reconstruction
techniques. Precisely, we introduce a new learning framework to train a graph
convolutional network to resolve assembly graphs by finding a correct path
through them. The training is supervised with a dataset generated from the
resolved CHM13 human sequence and tested on assembly graphs built using real
human PacBio HiFi reads. Experimental results show that a model, trained on
simulated graphs generated solely from a single chromosome, is able to
remarkably resolve all other chromosomes. Moreover, the model outperforms
hand-crafted heuristics from a state-of-the-art \textit{de novo} assembler on
the same graphs. Reconstructed chromosomes with graph networks are more
accurate on nucleotide level, report lower number of contigs, higher genome
reconstructed fraction and NG50/NGA50 assessment metrics.
- Abstract(参考訳): テロメアからテロメアへのヒトDNAの完全配列の決定は30年前に始まり、最終的に2021年に完了した。
この成果は、様々なツールを設計し、最初のギャップレスゲノム配列を達成するために精巧な手動検査を行った多くの専門家の多大な努力の結果である。
しかし、この手法は、特に大量のデータを考えると、組立速度が重要な場合、異なるゲノムを組み立てる一般的な手法としてはほとんど利用できない。
本研究では,ゲノム組立タスクの中心部分に対して,ゲノム配列を再構築する必要のある大規模な組立グラフを解き放つという,異なるアプローチを探求する。
我々の主な動機は、人間工学的ヒューリスティックを減らし、ディープラーニングを使ってより一般化可能な再構築技術を開発することである。
正確には、グラフ畳み込みネットワークを訓練し、正しい経路を見つけることによってアセンブリグラフを解決するための新しい学習フレームワークを提案する。
トレーニングは、解決されたCHM13ヒューマンシーケンスから生成されたデータセットで教師され、実際の人間のPacBio HiFi読み取りを使用して構築されたアセンブリグラフでテストされる。
実験の結果、単一の染色体からのみ生成された模擬グラフに基づいて訓練されたモデルが、他の全ての染色体を著しく解決できることがわかった。
さらに、モデルは、同じグラフ上の最先端の \textit{de novo} アセンブラから手作りのヒューリスティックよりも優れている。
グラフネットワークを持つ再構成染色体はヌクレオチドレベルでより正確であり、より少ないコンチグ数、高いゲノム再構成率、NG50/NGA50アセスメント指標を報告している。
関連論文リスト
- GraSSRep: Graph-Based Self-Supervised Learning for Repeat Detection in
Metagenomic Assembly [24.55141372357102]
反復DNA (repeats) は、正確で効率的なゲノム組立てと配列アライメントに重大な課題をもたらす。
GraSSRepは、DNA配列を反復的および非反復的なカテゴリに分類する自己教師型学習フレームワークである。
GraSSRepはシークエンシング機能と事前定義された学習グラフ機能を組み合わせることで、繰り返し検出における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-02-14T18:26:58Z) - SimTeG: A Frustratingly Simple Approach Improves Textual Graph Learning [131.04781590452308]
テキストグラフ学習におけるフラストレーションに富んだアプローチであるSimTeGを提案する。
まず、下流タスクで予め訓練されたLM上で、教師付きパラメータ効率の微調整(PEFT)を行う。
次に、微調整されたLMの最後の隠れ状態を用いてノード埋め込みを生成する。
論文 参考訳(メタデータ) (2023-08-03T07:00:04Z) - Graph Generation with Diffusion Mixture [57.78958552860948]
グラフの生成は、非ユークリッド構造の複雑な性質を理解する必要がある実世界のタスクにとって大きな課題である。
本稿では,拡散過程の最終グラフ構造を明示的に学習することにより,グラフのトポロジーをモデル化する生成フレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-07T17:07:46Z) - Graph Neural Networks for Microbial Genome Recovery [64.91162205624848]
本稿では,グラフニューラルネットワーク(GNN)を用いて,メダゲノミクスビニングのためのコンティグ表現を学習する際のアセンブリグラフを活用することを提案する。
提案手法であるVaeG-Binは,個々のコンティグの潜在表現を学習するための変分オートエンコーダと,アセンブリグラフ内のコンティグの近傍構造を考慮したGNNを組み合わせる。
論文 参考訳(メタデータ) (2022-04-26T12:49:51Z) - Deep metric learning improves lab of origin prediction of genetically
engineered plasmids [63.05016513788047]
遺伝工学の属性(GEA)は、配列-ラブの関連を作る能力である。
本稿では,計量学習に基づいて,最も可能性の高い実験室をランク付けする手法を提案する。
我々は、特定の実験室のプラスミド配列のキーシグネチャを抽出することができ、モデル出力の解釈可能な検査を可能にする。
論文 参考訳(メタデータ) (2021-11-24T16:29:03Z) - DNA-GCN: Graph convolutional networks for predicting DNA-protein binding [4.1600531290054]
シーケンスk-merグラフを構築し、データセット全体のDNA-GCN(DNA-GCN)を学習する。
DNA-GCNは全てのノードに対して1ホット表現を持ち、その後、k-merとシーケンスの両方の埋め込みを共同で学習する。
ENCODEから50のデータセットでモデルを評価した。
論文 参考訳(メタデータ) (2021-06-02T07:36:11Z) - Heterogeneous Similarity Graph Neural Network on Electronic Health
Records [74.66674469510251]
非均質な類似度グラフニューラルネットワーク(HSGNN)を提案し、新しい異種GNNでEHRを分析します。
フレームワークは2つの部分から構成される: 1つは前処理方式で、もう1つはエンドツーエンドのGNNである。
GNNは全ての同質グラフを入力として取り、それら全てを1つのグラフに融合して予測する。
論文 参考訳(メタデータ) (2021-01-17T23:14:29Z) - Molecular graph generation with Graph Neural Networks [2.7393821783237184]
MG2N2と呼ばれる一連のグラフニューラルネットワークモジュールに基づくシーケンシャルな分子グラフジェネレーターを紹介します。
我々のモデルは、過度に適合することなく、トレーニング段階で見られる分子パターンを一般化することができる。
論文 参考訳(メタデータ) (2020-12-14T10:32:57Z) - A step towards neural genome assembly [0.0]
我々はMPNNモデルを最大集約器で訓練し、グラフ単純化のためのいくつかのアルゴリズムを実行する。
アルゴリズムがうまく学習され、トレーニングで使用されるグラフの最大20倍の大きさのグラフにスケールできることを示す。
論文 参考訳(メタデータ) (2020-11-10T10:12:19Z) - A deep learning classifier for local ancestry inference [63.8376359764052]
局所祖先推論は、個人のゲノムの各セグメントの祖先を特定する。
我々は,エンコーダ・デコーダアーキテクチャを備えた深層畳み込みニューラルネットワークを用いた新しいLAIツールを開発した。
我々は,既存のゴールド標準ツール RFMix とほぼ同等の精度で,ゼロショットタスクとしてアドミキシングを学習できることを実証した。
論文 参考訳(メタデータ) (2020-11-04T00:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。