論文の概要: Detecting the hosts of bacteriophages using GCN-based semi-supervised
learning
- arxiv url: http://arxiv.org/abs/2105.13570v1
- Date: Fri, 28 May 2021 03:29:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-31 13:27:27.101819
- Title: Detecting the hosts of bacteriophages using GCN-based semi-supervised
learning
- Title(参考訳): GCNに基づく半教師付き学習によるバクテリオファージの宿主の検出
- Authors: Jiayu Shang and Yanni Sun
- Abstract要約: 細菌ファージは自然および宿主関連生態系において重要な制御的役割を担っている。
宿主を知ることは、抗生物質としての使用に関する重要な知識を提供する。
本稿では,新規なファージのホスト予測を行うための半教師付き学習モデルであるHostGを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Motivation: Bacteriophages (aka phages) are viruses that infect bacteria and
archaea. Thus, they play important regulatory roles in natural and
host-associated ecosystems. As the most abundant and diverse biological
entities in the biosphere, phages have received increased attention in their
research and applications. In particular, identifying their hosts provides key
knowledge for their usages as antibiotics. High-throughput sequencing and its
application to the microbiome have offered new opportunities for phage host
detection. However, there are two main challenges for computational host
prediction. First, the known phage-host relationships are very limited compared
to sequenced phages. Second, although the sequence similarity between phages
and bacteria has been used as a major feature for host prediction, the
alignment is either missing or ambiguous for accurate host prediction. Thus,
there is still a need to improve the accuracy of host prediction. Results: In
this work, we present a semi-supervised learning model, named HostG, to conduct
host prediction for novel phages. We construct a knowledge graph by utilizing
both phage-phage protein similarity and phage-host DNA sequence similarity.
Then graph convolutional network (GCN) is adopted to exploit phages with or
without known hosts in training to enhance the learning ability. During the GCN
training, we minimize the expected calibrated error (ECE) to ensure the
confidence of the predictions. We tested HostG on both simulated and real
sequencing data and the results demonstrated that it competes favorably against
the state-of-the-art pipelines.
- Abstract(参考訳): 細菌ファージ(英:bacteriumophages)は、細菌や古細菌に感染するウイルスである。
したがって、自然および宿主関連生態系において重要な規制的役割を担っている。
生物圏で最も豊富で多様な生物実体として、ファージは研究や応用において注目を集めている。
特に、宿主の同定は抗生物質としての使用に重要な知識を提供する。
高スループットシークエンシングとそのマイクロバイオームへの応用は、ファージホスト検出の新しい機会を提供する。
しかし、計算ホスト予測には2つの大きな課題がある。
まず、既知のファージとホストの関係は、シーケンシャルなファージに比べて非常に限定的である。
第二に、食虫と細菌の配列の類似性は宿主の予測の主要な特徴であるが、正確な宿主の予測にはアライメントが欠如しているか曖昧である。
したがって、ホスト予測の精度を向上させる必要がある。
結果:本研究では,新しいファージに対するホスト予測を行うために,半教師付き学習モデルhostgを提案する。
ファージ-ファージタンパク質類似性とファージ-ホストdna配列類似性を利用して知識グラフを構築する。
次に、学習能力を高めるために、既知のホストの有無に関わらずファージを活用するためにグラフ畳み込みネットワーク(gcn)が採用される。
GCNトレーニング中、予測校正誤差(ECE)を最小限に抑え、予測の信頼性を確保する。
シミュレーションデータと実シークエンシングデータの両方でHostGをテストし、その結果、最先端のパイプラインと良好に競合することを示した。
関連論文リスト
- CSGDN: Contrastive Signed Graph Diffusion Network for Predicting Crop Gene-phenotype Associations [6.5678927417916455]
我々は、より少ないトレーニングサンプルでロバストなノード表現を学習し、より高いリンク予測精度を実現するために、コントラスト符号付きグラフ拡散ネットワーク(CSGDN)を提案する。
Gossypium hirsutum, Brassica napus, Triticum turgidumの3つの作物データセット上でCSGDNの有効性を検証する実験を行った。
論文 参考訳(メタデータ) (2024-10-10T01:01:10Z) - PhaGO: Protein function annotation for bacteriophages by integrating the genomic context [9.128292633308945]
細菌ファージは細菌を標的とするウイルスであり、微生物生態学において重要な役割を果たす。
ファージタンパク質は、ウイルス感染、複製、進化などのファージ生物学を理解する上で重要である。
既存のツールはまだ、アノテートタンパク質の機能において、ファージのユニークな性質を十分に活用していない。
論文 参考訳(メタデータ) (2024-08-12T13:02:38Z) - BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Experiments [112.25067497985447]
そこで,BioDiscoveryAgentを紹介した。このエージェントは,新しい実験を設計し,その結果の理由を明らかにし,仮説空間を効率的にナビゲートし,望ましい解に到達させる。
BioDiscoveryAgentは、機械学習モデルをトレーニングすることなく、新しい実験を独自に設計することができる。
6つのデータセットで関連する遺伝的摂動を予測することで、平均21%の改善が達成されている。
論文 参考訳(メタデータ) (2024-05-27T19:57:17Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Virus2Vec: Viral Sequence Classification Using Machine Learning [48.40285316053593]
本稿では,バイラル・シークエンスのための特徴ベクトル表現であるVrus2Vecを提案する。
コロナウイルス科の実際のスパイク配列と狂犬病ウイルスのシークエンスデータに基づいてウイルス2Vecを実験的に評価し、宿主を予測した。
以上の結果から, Virus2Vecはベースラインおよび最先端手法の予測精度よりも優れていた。
論文 参考訳(メタデータ) (2023-04-24T08:17:16Z) - CHERRY: a Computational metHod for accuratE pRediction of
virus-pRokarYotic interactions using a graph encoder-decoder model [0.0]
本研究は,リンク予測としてホスト予測を定式化したCHERRYを知識グラフに提示する。
ウイルスとプロカリアティックな相互作用予測ツールとして、CHERRYは新たに発見されたウイルスの宿主を予測したり、抗生物質耐性細菌に感染するウイルスを予測したりすることができる。
論文 参考訳(メタデータ) (2022-01-04T07:32:00Z) - Deep metric learning improves lab of origin prediction of genetically
engineered plasmids [63.05016513788047]
遺伝工学の属性(GEA)は、配列-ラブの関連を作る能力である。
本稿では,計量学習に基づいて,最も可能性の高い実験室をランク付けする手法を提案する。
我々は、特定の実験室のプラスミド配列のキーシグネチャを抽出することができ、モデル出力の解釈可能な検査を可能にする。
論文 参考訳(メタデータ) (2021-11-24T16:29:03Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z) - Classification of Influenza Hemagglutinin Protein Sequences using
Convolutional Neural Networks [8.397189036839956]
本稿では,インフルエンザA型ウイルスが特定の宿主,具体的にはヒト,鳥,豚の宿主に感染するかどうかを,HA遺伝子のタンパク質配列のみを用いて正確に予測することに焦点を当てる。
本稿では, タンパク質配列を疎水性指数を用いて数値信号に符号化し, その後, 畳み込みニューラルネットワークに基づく予測モデルを活用することを提案する。
その結果,ヒト,鳥,豚の宿主に感染するウイルスが検出された場合,HAタンパク質配列を高い精度で識別できることがわかった。
論文 参考訳(メタデータ) (2021-08-09T10:42:26Z) - Bacteriophage classification for assembled contigs using Graph
Convolutional Network [0.0]
細菌ファージ(別名食虫)は微生物の生物学において重要な役割を担っている。
高い多様性、豊富な量、限られた食餌は、分類学的分析に大きな課題をもたらす。
我々は、ファージの分類分類を行うために、PhaGCNという新しい半教師付き学習モデルを提案する。
論文 参考訳(メタデータ) (2021-02-07T08:58:35Z) - Temporal Positive-unlabeled Learning for Biomedical Hypothesis
Generation via Risk Estimation [46.852387038668695]
本稿では,仮説生成の科学的プロセスに機械学習を導入することを目的とする。
本稿では,ノード対埋め込みの学習において,前向きの確率を推定するための変分推論モデルを提案する。
実世界のバイオメディカルな用語関係データセットの実験結果と、COVID-19データセットのケーススタディ分析により、提案モデルの有効性が検証された。
論文 参考訳(メタデータ) (2020-10-05T10:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。