論文の概要: A Misclassification Network-Based Method for Comparative Genomic Analysis
- arxiv url: http://arxiv.org/abs/2412.07051v3
- Date: Wed, 15 Jan 2025 22:50:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 21:49:22.868183
- Title: A Misclassification Network-Based Method for Comparative Genomic Analysis
- Title(参考訳): 比較ゲノム解析のための誤分類ネットワークに基づく手法
- Authors: Wan He, Tina Eliassi-Rad, Samuel V. Scarpino,
- Abstract要約: メタデータに基づくゲノム配列の分類は、数十年間、比較ゲノム学において活発な研究領域であった。
本研究では、AIとネットワークサイエンスのアプローチを統合し、比較ゲノム分析フレームワークを開発する。
- 参考スコア(独自算出の注目度): 3.7671415694914927
- License:
- Abstract: Classifying genome sequences based on metadata has been an active area of research in comparative genomics for decades with many important applications across the life sciences. Established methods for classifying genomes can be broadly grouped into sequence alignment-based and alignment-free models. Conventional alignment-based models rely on genome similarity measures calculated based on local sequence alignments or consistent ordering among sequences. However, such methods are computationally expensive when dealing with large ensembles of even moderately sized genomes. In contrast, alignment-free (AF) approaches measure genome similarity based on summary statistics in an unsupervised setting and are efficient enough to analyze large datasets. However, both alignment-based and AF methods typically assume fixed scoring rubrics that lack the flexibility to assign varying importance to different parts of the sequences based on prior knowledge. In this study, we integrate AI and network science approaches to develop a comparative genomic analysis framework that addresses these limitations. Our approach, termed the Genome Misclassification Network Analysis (GMNA), simultaneously leverages misclassified instances, a learned scoring rubric, and label information to classify genomes based on associated metadata and better understand potential drivers of misclassification. We evaluate the utility of the GMNA using Naive Bayes and convolutional neural network models, supplemented by additional experiments with transformer-based models, to construct SARS-CoV-2 sampling location classifiers using over 500,000 viral genome sequences and study the resulting network of misclassifications. We demonstrate the global health potential of the GMNA by leveraging the SARS-CoV-2 genome misclassification networks to investigate the role human mobility played in structuring geographic clustering of SARS-CoV-2.
- Abstract(参考訳): メタデータに基づくゲノム配列の分類は、生命科学における重要な応用として数十年間、比較ゲノム学において活発な研究領域であった。
ゲノムを分類するための確立された方法は、配列アライメントベースおよびアライメントフリーモデルに広く分類することができる。
従来のアライメントに基づくモデルは、局所的な配列アライメントや配列間の一貫した順序付けに基づいて計算されたゲノム類似度測定に依存する。
しかし、そのような手法は、適度な大きさのゲノムの大規模なアンサンブルを扱う場合、計算コストがかかる。
対照的に、アライメントフリー(AF)アプローチは、教師なし環境での要約統計に基づいてゲノム類似度を測定し、大規模なデータセットを分析するのに十分な効率である。
しかしながら、アライメントベースとAF法はどちらも、事前の知識に基づいて配列の異なる部分に異なる重要性を割り当てる柔軟性に欠ける固定されたスコアリングルーブリックを仮定するのが一般的である。
本研究では、これらの制約に対処する比較ゲノム分析フレームワークを開発するために、AIとネットワークサイエンスのアプローチを統合する。
我々のアプローチは、遺伝子ミス分類ネットワーク分析(GMNA)と呼ばれ、同時に、誤分類されたインスタンス、学習されたスコアリングルーリック、ラベル情報を利用して、関連メタデータに基づいてゲノムを分類し、誤分類の潜在的なドライバをよりよく理解する。
トランスフォーマーモデルを用いた追加実験により補足された、ネイブベイズと畳み込みニューラルネットワークモデルを用いてGMNAの有用性を評価し、50万以上のウイルスゲノム配列を用いてSARS-CoV-2サンプリング位置分類器を構築し、その結果の誤分類ネットワークを研究する。
本研究では,SARS-CoV-2の地理的クラスタリングにおけるヒトの移動性の役割を解明するために,SARS-CoV-2ゲノムミス分類ネットワークを利用したGMNAのグローバルヘルスの可能性を示す。
関連論文リスト
- Integrating Large Language Models for Genetic Variant Classification [12.244115429231888]
大型言語モデル (LLM) は遺伝学においてトランスフォーメーションツールとして登場した。
本研究では,GPN-MSA,ESM1b,AlphaMissenseを含む最先端LLMの統合について検討した。
提案手法は,よく注釈付けされたProteinGymとClinVarのデータセットを用いて,これらの統合モデルを評価する。
論文 参考訳(メタデータ) (2024-11-07T13:45:56Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - Single-Cell Deep Clustering Method Assisted by Exogenous Gene
Information: A Novel Approach to Identifying Cell Types [50.55583697209676]
我々は,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。
クラスタリング過程において,両情報の集合を統合し,細胞と遺伝子の特徴を再構成し,識別的表現を生成する。
本研究は、細胞の特徴と分布に関する知見を高め、疾患の早期診断と治療の基礎となる。
論文 参考訳(メタデータ) (2023-11-28T09:14:55Z) - Genetic heterogeneity analysis using genetic algorithm and network
science [2.6166087473624318]
ゲノムワイド・アソシエーション(GWAS)は、疾患に感受性のある遺伝的変数を同定することができる。
遺伝的効果に絡み合った遺伝的変数は、しばしば低い効果サイズを示す。
本稿では,FCSNet(Feature Co-Selection Network)という,GWASのための新しい特徴選択機構を提案する。
論文 参考訳(メタデータ) (2023-08-12T01:28:26Z) - Granger causal inference on DAGs identifies genomic loci regulating
transcription [77.58911272503771]
GrID-Netは、DBG構造化システムにおけるGranger因果推論のためのラタグメッセージパッシングを備えたグラフニューラルネットワークに基づくフレームワークである。
我々の応用は、特定の遺伝子の調節を仲介するゲノム座を同定する単一セルマルチモーダルデータの解析である。
論文 参考訳(メタデータ) (2022-10-18T21:15:10Z) - Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文 参考訳(メタデータ) (2022-07-18T19:16:56Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z) - Mycorrhiza: Genotype Assignment usingPhylogenetic Networks [2.286041284499166]
遺伝子型代入問題に対する機械学習手法であるMycorrhizaを紹介する。
提案アルゴリズムは系統ネットワークを用いて,標本間の進化的関係を符号化する特徴を設計する。
Mycorrhizaは、大きな平均固定指数(FST)を持つデータセットやハーディ・ワインバーグ平衡からの偏差で特に顕著な利得を得る。
論文 参考訳(メタデータ) (2020-10-14T02:36:27Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。