論文の概要: GraSSRep: Graph-Based Self-Supervised Learning for Repeat Detection in
Metagenomic Assembly
- arxiv url: http://arxiv.org/abs/2402.09381v1
- Date: Wed, 14 Feb 2024 18:26:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 13:54:13.577110
- Title: GraSSRep: Graph-Based Self-Supervised Learning for Repeat Detection in
Metagenomic Assembly
- Title(参考訳): GraSSRep:メタゲノミクスアセンブリにおける反復検出のためのグラフに基づく自己教師付き学習
- Authors: Ali Azizpour, Advait Balaji, Todd J. Treangen and Santiago Segarra
- Abstract要約: 反復DNA (repeats) は、正確で効率的なゲノム組立てと配列アライメントに重大な課題をもたらす。
GraSSRepは、DNA配列を反復的および非反復的なカテゴリに分類する自己教師型学習フレームワークである。
GraSSRepはシークエンシング機能と事前定義された学習グラフ機能を組み合わせることで、繰り返し検出における最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 24.55141372357102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Repetitive DNA (repeats) poses significant challenges for accurate and
efficient genome assembly and sequence alignment. This is particularly true for
metagenomic data, where genome dynamics such as horizontal gene transfer, gene
duplication, and gene loss/gain complicate accurate genome assembly from
metagenomic communities. Detecting repeats is a crucial first step in
overcoming these challenges. To address this issue, we propose GraSSRep, a
novel approach that leverages the assembly graph's structure through graph
neural networks (GNNs) within a self-supervised learning framework to classify
DNA sequences into repetitive and non-repetitive categories. Specifically, we
frame this problem as a node classification task within a metagenomic assembly
graph. In a self-supervised fashion, we rely on a high-precision (but
low-recall) heuristic to generate pseudo-labels for a small proportion of the
nodes. We then use those pseudo-labels to train a GNN embedding and a random
forest classifier to propagate the labels to the remaining nodes. In this way,
GraSSRep combines sequencing features with pre-defined and learned graph
features to achieve state-of-the-art performance in repeat detection. We
evaluate our method using simulated and synthetic metagenomic datasets. The
results on the simulated data highlight our GraSSRep's robustness to repeat
attributes, demonstrating its effectiveness in handling the complexity of
repeated sequences. Additionally, our experiments with synthetic metagenomic
datasets reveal that incorporating the graph structure and the GNN enhances our
detection performance. Finally, in comparative analyses, GraSSRep outperforms
existing repeat detection tools with respect to precision and recall.
- Abstract(参考訳): 反復DNA (repeats) は、正確で効率的なゲノム組立てと配列アライメントに重大な課題をもたらす。
これは、水平遺伝子導入、遺伝子重複、遺伝子喪失/ゲインといったゲノムダイナミクスが、メダゲノミクスコミュニティからの正確なゲノム組み立てを複雑にするメダゲノミクスデータに特に当てはまる。
繰り返し検出は、これらの課題を克服するための重要な第一歩です。
この問題に対処するため,我々は,グラフニューラルネットワーク(GNN)を介し,組立グラフの構造を活用する新たなアプローチであるGraSSRepを提案し,DNA配列を反復的および非反復的カテゴリに分類する。
具体的には、この問題をメタジェノミックアセンブリグラフ内のノード分類タスクとして構成する。
自己監督的な方法では、ノードのごく一部に対して擬似ラベルを生成するために、高精度な(しかし低リコール)ヒューリスティックに依存している。
次に、これらの擬似ラベルを使用してGNN埋め込みとランダムな森林分類器を訓練し、ラベルを残りのノードに伝達する。
このように、GraSSRepはシークエンシング機能と事前定義された学習グラフ機能を組み合わせることで、繰り返し検出における最先端のパフォーマンスを実現する。
本手法はシミュレーションおよび合成メタゲノミクスデータセットを用いて評価する。
シミュレーションデータの結果は,GraSSRepの繰り返し属性に対する堅牢性を強調し,繰り返しシーケンスの複雑性を扱う上での有効性を示している。
さらに,グラフ構造とGNNを組み込んだ合成メタゲノミクスデータセットによる実験により,検出性能が向上した。
最後に、比較分析において、GraSSRepは、精度とリコールに関して、既存の繰り返し検出ツールより優れている。
関連論文リスト
- A GAN Approach for Node Embedding in Heterogeneous Graphs Using Subgraph Sampling [33.50085646298074]
本稿では,グラフニューラルネットワーク (GNN) とGAN (Generative Adrial Network) を組み合わせた新しいフレームワークを提案する。
このフレームワークには高度なエッジ生成と選択モジュールが含まれており、合成ノードとエッジを同時に生成することができる。
論文 参考訳(メタデータ) (2023-12-11T16:52:20Z) - Efficient Heterogeneous Graph Learning via Random Projection [58.4138636866903]
不均一グラフニューラルネットワーク(HGNN)は、異種グラフを深層学習するための強力なツールである。
最近のプリ計算ベースのHGNNは、一時間メッセージパッシングを使用して不均一グラフを正規形テンソルに変換する。
我々はRandom Projection Heterogeneous Graph Neural Network (RpHGNN) というハイブリッド計算前HGNNを提案する。
論文 参考訳(メタデータ) (2023-10-23T01:25:44Z) - T-GAE: Transferable Graph Autoencoder for Network Alignment [79.89704126746204]
T-GAEはグラフオートエンコーダフレームワークで、GNNの転送性と安定性を活用して、再トレーニングなしに効率的なネットワークアライメントを実現する。
実験の結果、T-GAEは最先端の最適化手法と最高のGNN手法を最大38.7%、50.8%で上回っていることがわかった。
論文 参考訳(メタデータ) (2023-10-05T02:58:29Z) - Seq-HGNN: Learning Sequential Node Representation on Heterogeneous Graph [57.2953563124339]
本稿では,シーケンシャルノード表現,すなわちSeq-HGNNを用いた新しい異種グラフニューラルネットワークを提案する。
Heterogeneous Graph Benchmark (HGB) と Open Graph Benchmark (OGB) の4つの広く使われているデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-05-18T07:27:18Z) - Seq-HyGAN: Sequence Classification via Hypergraph Attention Network [0.0]
シークエンス分類は、健康におけるゲノム分類やビジネスにおける異常検出など、さまざまな領域における幅広い実世界の応用を有する。
シーケンスデータに明示的な機能がないため、機械学習モデルでは難しい。
本稿では,新しいハイパーグラフ注意ネットワークモデル,Seq-HyGANを提案する。
論文 参考訳(メタデータ) (2023-03-04T11:53:33Z) - Simple and Efficient Heterogeneous Graph Neural Network [55.56564522532328]
不均一グラフニューラルネットワーク(HGNN)は、不均一グラフの豊富な構造的および意味的な情報をノード表現に埋め込む強力な能力を持つ。
既存のHGNNは、同種グラフ上のグラフニューラルネットワーク(GNN)から多くのメカニズム、特に注意機構と多層構造を継承する。
本稿では,これらのメカニズムを詳細に検討し,簡便かつ効率的なヘテロジニアスグラフニューラルネットワーク(SeHGNN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T10:01:46Z) - Learning to Untangle Genome Assembly with Graph Convolutional Networks [17.227634756670835]
我々は,グラフ畳み込みネットワークをトレーニングし,それらを経由する正しい経路を見つけることによって,アセンブリグラフを解決するための新しい学習フレームワークを導入する。
実験の結果、単一の染色体からのみ生成された模擬グラフに基づいて訓練されたモデルが、他の全ての染色体を著しく解決できることがわかった。
論文 参考訳(メタデータ) (2022-06-01T04:14:25Z) - Graph Neural Networks for Microbial Genome Recovery [64.91162205624848]
本稿では,グラフニューラルネットワーク(GNN)を用いて,メダゲノミクスビニングのためのコンティグ表現を学習する際のアセンブリグラフを活用することを提案する。
提案手法であるVaeG-Binは,個々のコンティグの潜在表現を学習するための変分オートエンコーダと,アセンブリグラフ内のコンティグの近傍構造を考慮したGNNを組み合わせる。
論文 参考訳(メタデータ) (2022-04-26T12:49:51Z) - A step towards neural genome assembly [0.0]
我々はMPNNモデルを最大集約器で訓練し、グラフ単純化のためのいくつかのアルゴリズムを実行する。
アルゴリズムがうまく学習され、トレーニングで使用されるグラフの最大20倍の大きさのグラフにスケールできることを示す。
論文 参考訳(メタデータ) (2020-11-10T10:12:19Z) - Track Seeding and Labelling with Embedded-space Graph Neural Networks [3.5236955190576693]
Exa.TrkXプロジェクトは、粒子トラック再構築のための機械学習アプローチを調査している。
これらのソリューションで最も有望なのは、グラフニューラルネットワーク(GNN)で、トラック計測を接続するグラフとしてイベントを処理する。
この課題に対する最先端アーキテクチャの更新について報告する。
論文 参考訳(メタデータ) (2020-06-30T23:43:28Z) - Infinitely Wide Graph Convolutional Networks: Semi-supervised Learning
via Gaussian Processes [144.6048446370369]
グラフ畳み込みニューラルネットワーク(GCN)は近年,グラフに基づく半教師付き半教師付き分類において有望な結果を示した。
グラフに基づく半教師付き学習のためのGCN(GPGC)を用いたGP回帰モデルを提案する。
GPGCを評価するための広範囲な実験を行い、他の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-02-26T10:02:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。