論文の概要: Training Flexible Models of Genetic Variant Effects from Functional Annotations using Accelerated Linear Algebra
- arxiv url: http://arxiv.org/abs/2506.19598v1
- Date: Tue, 24 Jun 2025 13:07:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.637345
- Title: Training Flexible Models of Genetic Variant Effects from Functional Annotations using Accelerated Linear Algebra
- Title(参考訳): 加速度線形代数を用いた機能アノテーションによる遺伝的バリアント効果の訓練可能なモデル
- Authors: Alan N. Amin, Andres Potapczynski, Andrew Gordon Wilson,
- Abstract要約: 提案手法は,大規模ニューラルネットワーク予測モデルを用いてオプティマイザを最適化するDeepWASを開発するための手法である。
より多くの機能でトレーニングされたより大きなモデルは、より良い予測をし、病気の予測を改善し、治療対象の識別を改善する可能性がある。
- 参考スコア(独自算出の注目度): 44.253701408005895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To understand how genetic variants in human genomes manifest in phenotypes -- traits like height or diseases like asthma -- geneticists have sequenced and measured hundreds of thousands of individuals. Geneticists use this data to build models that predict how a genetic variant impacts phenotype given genomic features of the variant, like DNA accessibility or the presence of nearby DNA-bound proteins. As more data and features become available, one might expect predictive models to improve. Unfortunately, training these models is bottlenecked by the need to solve expensive linear algebra problems because variants in the genome are correlated with nearby variants, requiring inversion of large matrices. Previous methods have therefore been restricted to fitting small models, and fitting simplified summary statistics, rather than the full likelihood of the statistical model. In this paper, we leverage modern fast linear algebra techniques to develop DeepWAS (Deep genome Wide Association Studies), a method to train large and flexible neural network predictive models to optimize likelihood. Notably, we find that larger models only improve performance when using our full likelihood approach; when trained by fitting traditional summary statistics, larger models perform no better than small ones. We find larger models trained on more features make better predictions, potentially improving disease predictions and therapeutic target identification.
- Abstract(参考訳): ヒトゲノムの遺伝的変異が、高度や喘息などの疾患などの表現型にどのように現れるかを理解するために、遺伝学者は数十万人もの個体を解析、測定した。
遺伝学者はこのデータを使って、DNAアクセシビリティーや近くのDNA結合タンパク質の存在など、変異体のゲノム的特徴が表現型にどのように影響するかを予測するモデルを構築する。
より多くのデータや機能が利用可能になるにつれ、予測モデルの改善が期待できるかもしれない。
残念なことに、これらのモデルのトレーニングは、ゲノムの変種が近くの変種と相関し、大きな行列の逆転を必要とするため、高価な線形代数問題を解く必要性によってボトルネックとなる。
そのため、従来の手法は、統計モデルの完全な可能性ではなく、小さなモデルに適合し、単純化された要約統計に適合するように制限されてきた。
本稿では,大規模かつ柔軟なニューラルネットワーク予測モデルの学習手法であるDeepWAS(Deep genome Wide Association Studies)を開発した。
従来の要約統計値に適合させることでトレーニングされた場合、大きなモデルは小さなモデルよりも性能が良くない。
より多くの機能でトレーニングされたより大きなモデルは、より良い予測をし、病気の予測を改善し、治療対象の識別を改善する可能性がある。
関連論文リスト
- GRAPE: Heterogeneous Graph Representation Learning for Genetic Perturbation with Coding and Non-Coding Biotype [51.58774936662233]
遺伝子制御ネットワーク(GRN)の構築は、遺伝的摂動の影響を理解し予測するために不可欠である。
本研究では,事前学習した大規模言語モデルとDNAシークエンスモデルを用いて,遺伝子記述やDNAシークエンスデータから特徴を抽出する。
我々は、遺伝子摂動において初めて遺伝子バイオタイプ情報を導入し、細胞プロセスの制御において異なるバイオタイプを持つ遺伝子の異なる役割をシミュレートした。
論文 参考訳(メタデータ) (2025-05-06T03:35:24Z) - Inferring genotype-phenotype maps using attention models [0.21990652930491852]
遺伝子型から表現型を予測することは遺伝学における中心的な課題である。
機械学習の最近の進歩、特に注意に基づくモデルは、有望な代替手段を提供する。
ここでは、注意に基づくモデルを定量的遺伝学に適用する。
論文 参考訳(メタデータ) (2025-04-14T16:32:17Z) - Efficient Data Selection for Training Genomic Perturbation Models [22.722764359030176]
グラフニューラルネットワークに基づく遺伝子発現モデルは、遺伝子摂動の結果を予測するために訓練される。
アクティブな学習方法は、トレーニングセットを構築するのに必要な実験のコストのために、これらのモデルをトレーニングするためにしばしば使用される。
本稿では,遺伝子発現モデルを訓練するためのグラフベースのワンショットデータ選択法を提案する。
論文 参考訳(メタデータ) (2025-03-18T12:52:03Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Comparative Analysis of Data Preprocessing Methods, Feature Selection
Techniques and Machine Learning Models for Improved Classification and
Regression Performance on Imbalanced Genetic Data [0.0]
本研究では,データ前処理,特徴選択,モデル選択が遺伝的データセット上で訓練されたモデルの性能に及ぼす影響について検討した。
予測変数や対象変数のアウトラヤ/スキューが回帰モデルに挑戦しないことがわかった。
また,クラス不均衡なターゲット変数とスキュード予測器が分類性能にほとんど影響を与えていないことも見出した。
論文 参考訳(メタデータ) (2024-02-22T21:41:27Z) - rfPhen2Gen: A machine learning based association study of brain imaging
phenotypes to genotypes [71.1144397510333]
56個の脳画像QTを用いてSNPを予測する機械学習モデルを学習した。
アルツハイマー病(AD)リスク遺伝子APOEのSNPは、ラスソとランダムな森林に対して最低のRMSEを有していた。
ランダム・フォレストは、線形モデルによって優先順位付けされなかったが、脳関連疾患と関連があることが知られている追加のSNPを特定した。
論文 参考訳(メタデータ) (2022-03-31T20:15:22Z) - Expectile Neural Networks for Genetic Data Analysis of Complex Diseases [3.0088453915399747]
本研究では、複雑な疾患の遺伝子データ解析のための予測型ニューラルネットワーク(ENN)法を開発した。
期待回帰と同様に、ERNは遺伝子変異と疾患の表現型との関係を包括的に把握する。
提案手法は,遺伝子変異と疾患表現型との間に複雑な関係がある場合,既存の予測回帰よりも優れていた。
論文 参考訳(メタデータ) (2020-10-26T21:07:40Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - A Semi-Supervised Generative Adversarial Network for Prediction of
Genetic Disease Outcomes [0.0]
本稿では, 遺伝的な遺伝的データセットを作成するために, gGAN (Generative Adversarial Networks) を導入する。
我々のゴールは、遺伝子プロファイルだけで病気の重篤な形態を発達させる新しい個人の正当性を決定することである。
提案モデルは自己認識型であり、ネットワークがトレーニングされたデータと十分に互換性のある新しい遺伝子プロファイルを決定することができる。
論文 参考訳(メタデータ) (2020-07-02T15:35:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。