論文の概要: Mycorrhiza: Genotype Assignment usingPhylogenetic Networks
- arxiv url: http://arxiv.org/abs/2010.09483v1
- Date: Wed, 14 Oct 2020 02:36:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 14:38:39.462847
- Title: Mycorrhiza: Genotype Assignment usingPhylogenetic Networks
- Title(参考訳): Mycorrhiza: 遺伝的ネットワークを用いた遺伝子型割り当て
- Authors: Jeremy Georges-Filteau, Richard C. Hamelin and Mathieu Blanchette
- Abstract要約: 遺伝子型代入問題に対する機械学習手法であるMycorrhizaを紹介する。
提案アルゴリズムは系統ネットワークを用いて,標本間の進化的関係を符号化する特徴を設計する。
Mycorrhizaは、大きな平均固定指数(FST)を持つデータセットやハーディ・ワインバーグ平衡からの偏差で特に顕著な利得を得る。
- 参考スコア(独自算出の注目度): 2.286041284499166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivation The genotype assignment problem consists of predicting, from the
genotype of an individual, which of a known set of populations it originated
from. The problem arises in a variety of contexts, including wildlife
forensics, invasive species detection and biodiversity monitoring. Existing
approaches perform well under ideal conditions but are sensitive to a variety
of common violations of the assumptions they rely on. Results In this article,
we introduce Mycorrhiza, a machine learning approach for the genotype
assignment problem. Our algorithm makes use of phylogenetic networks to
engineer features that encode the evolutionary relationships among samples.
Those features are then used as input to a Random Forests classifier. The
classification accuracy was assessed on multiple published empirical SNP,
microsatellite or consensus sequence datasets with wide ranges of size,
geographical distribution and population structure and on simulated datasets.
It compared favorably against widely used assessment tests or mixture analysis
methods such as STRUCTURE and Admixture, and against another machine-learning
based approach using principal component analysis for dimensionality reduction.
Mycorrhiza yields particularly significant gains on datasets with a large
average fixation index (FST) or deviation from the Hardy-Weinberg equilibrium.
Moreover, the phylogenetic network approach estimates mixture proportions with
good accuracy.
- Abstract(参考訳): モチベーション 遺伝子型割り当て問題は、個体の遺伝子型から発生した既知の集団のどれかを予測することから成り立っている。
この問題は、野生動物鑑定、侵入種検出、生物多様性監視など、さまざまな文脈で発生する。
既存のアプローチは理想的な条件下ではうまく機能するが、依存する仮定の様々な共通違反に敏感である。
本稿では,遺伝子型割当問題に対する機械学習アプローチであるmycorrhizaについて述べる。
提案アルゴリズムは系統ネットワークを用いて,標本間の進化的関係を符号化する特徴を設計する。
これらの機能はランダムフォレスト分類器への入力として使用される。
分類精度は,複数のsnp,マイクロサテライト,コンセンサスシーケンスデータセットにおいて,サイズ,地理的分布,人口構造,シミュレーションデータセットを用いて評価した。
広く使われている評価試験や、構造や混和などの混合分析法、および主成分分析を用いた他の機械学習による次元低減法と比較した。
Mycorrhizaは、大きな平均固定指数(FST)を持つデータセットやハーディ・ワインバーグ平衡からの偏差で特に顕著な利得を得る。
さらに,系統ネットワークアプローチは混合比率を精度良く推定する。
関連論文リスト
- Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Predicting loss-of-function impact of genetic mutations: a machine
learning approach [0.0]
本稿では,遺伝子変異の属性に基づいて機械学習モデルを学習し,LoFtoolスコアを予測することを目的とする。
これらの属性には、染色体上の突然変異の位置、アミノ酸の変化、変異によって引き起こされるコドンの変化が含まれていた。
モデルは, 平均2乗誤差, 平均2乗誤差, 平均2乗誤差, 平均絶対誤差, 説明分散の5倍のクロスバリデード平均を用いて評価した。
論文 参考訳(メタデータ) (2024-01-26T19:27:38Z) - PhyloGFN: Phylogenetic inference with generative flow networks [59.56365488043478]
本稿では,系統学における2つの中核的問題に対処するための生成フローネットワーク(GFlowNets)の枠組みを紹介する。
GFlowNetsは複雑な構造をサンプリングするのに適しているため、木トポロジー上の多重モード後部分布を探索し、サンプリングするのに自然な選択である。
我々は, 実際のベンチマークデータセット上で, 様々な, 高品質な進化仮説を生成できることを実証した。
論文 参考訳(メタデータ) (2023-10-12T23:46:08Z) - Fast and Functional Structured Data Generators Rooted in
Out-of-Equilibrium Physics [62.997667081978825]
エネルギーモデルを用いて、構造化データセットで高品質なラベル特化データを生成するという課題に対処する。
伝統的な訓練方法は、マルコフ連鎖モンテカルロ混合による困難に遭遇する。
非平衡効果を利用した新しいトレーニングアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-07-13T15:08:44Z) - Graph Coloring via Neural Networks for Haplotype Assembly and Viral
Quasispecies Reconstruction [8.828330486848753]
我々はグラフ表現学習と最適化を組み合わせたNeurHapと呼ばれる新しい手法を開発した。
我々の実験は、競合するアプローチと比較して、実データや合成データセットにおけるNeurHapの性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-10-21T12:53:09Z) - rfPhen2Gen: A machine learning based association study of brain imaging
phenotypes to genotypes [71.1144397510333]
56個の脳画像QTを用いてSNPを予測する機械学習モデルを学習した。
アルツハイマー病(AD)リスク遺伝子APOEのSNPは、ラスソとランダムな森林に対して最低のRMSEを有していた。
ランダム・フォレストは、線形モデルによって優先順位付けされなかったが、脳関連疾患と関連があることが知られている追加のSNPを特定した。
論文 参考訳(メタデータ) (2022-03-31T20:15:22Z) - Object-Attribute Biclustering for Elimination of Missing Genotypes in
Ischemic Stroke Genome-Wide Data [2.0236506875465863]
欠落した遺伝子型は、一般的な疾患や形質の遺伝的変異を識別するための機械学習アプローチの有効性に影響を与える可能性がある。
この問題は、異なるDNAマイクロアレイで異なる実験から遺伝子型データを収集する際に起こり、それぞれが無名(欠失)遺伝子型のパターンによって特徴づけられる。
我々は、オブジェクト-属性・ビクラスタのよく発達した概念と、二項関係の密接な部分関係に対応する形式的概念を用いる。
論文 参考訳(メタデータ) (2020-10-22T12:27:43Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z) - DCMD: Distance-based Classification Using Mixture Distributions on
Microbiome Data [10.171660468645603]
混合分布(DCMD)を用いた距離ベース分類のための革新的な手法を提案する。
このアプローチはサンプルデータの混合分布を推定することによりスパース数に固有の不確実性をモデル化する。
結果は、既存の機械学習や距離ベースのアプローチと比較される。
論文 参考訳(メタデータ) (2020-03-29T23:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。