論文の概要: StarBASE-GP: Biologically-Guided Automated Machine Learning for Genotype-to-Phenotype Association Analysis
- arxiv url: http://arxiv.org/abs/2505.22746v1
- Date: Wed, 28 May 2025 18:05:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.463848
- Title: StarBASE-GP: Biologically-Guided Automated Machine Learning for Genotype-to-Phenotype Association Analysis
- Title(参考訳): StarBASE-GP: 遺伝子型間相関解析のための生物誘導型自動機械学習
- Authors: Jose Guadalupe Hernandez, Attri Ghosh, Philip J. Freda, Yufei Meng, Nicholas Matsumoto, Jason H. Moore,
- Abstract要約: Star-based Single-locus and Epistasis Analysis Tool - Genetic Programming (StarBASE-GP)を提案する。
StarBASE-GPは、大規模ゲノムデータセットの表現型変異に関連する有意義な遺伝的変異を発見するための自動フレームワークである。
我々は,ラットノベギクス(茶色ラット)のコホート上でStarBASE-GPを評価し,体質量指数に関連する変異を同定した。
- 参考スコア(独自算出の注目度): 1.6393663206537612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the Star-Based Automated Single-locus and Epistasis analysis tool - Genetic Programming (StarBASE-GP), an automated framework for discovering meaningful genetic variants associated with phenotypic variation in large-scale genomic datasets. StarBASE-GP uses a genetic programming-based multi-objective optimization strategy to evolve machine learning pipelines that simultaneously maximize explanatory power (r2) and minimize pipeline complexity. Biological domain knowledge is integrated at multiple stages, including the use of nine inheritance encoding strategies to model deviations from additivity, a custom linkage disequilibrium pruning node that minimizes redundancy among features, and a dynamic variant recommendation system that prioritizes informative candidates for pipeline inclusion. We evaluate StarBASE-GP on a cohort of Rattus norvegicus (brown rat) to identify variants associated with body mass index, benchmarking its performance against a random baseline and a biologically naive version of the tool. StarBASE-GP consistently evolves Pareto fronts with superior performance, yielding higher accuracy in identifying both ground truth and novel quantitative trait loci, highlighting relevant targets for future validation. By incorporating evolutionary search and relevant biological theory into a flexible automated machine learning framework, StarBASE-GP demonstrates robust potential for advancing variant discovery in complex traits.
- Abstract(参考訳): 本稿では,大規模ゲノムデータセットにおける表現型変異に関連する有意義な遺伝的変異を発見するための,遺伝的プログラミング(StarBASE-GP)の自動化フレームワークであるStar-based Single-locus and Epistasis分析ツールについて述べる。
StarBASE-GPは、遺伝的プログラミングに基づく多目的最適化戦略を使用して、説明力(r2)を同時に最大化し、パイプラインの複雑さを最小限にする機械学習パイプラインを進化させる。
生物学的ドメイン知識は、付加性からの逸脱をモデル化するための9つの継承符号化戦略、特徴間の冗長性を最小化するカスタムリンケージ不均衡プルーニングノード、パイプライン包含のための情報的候補を優先する動的変量推薦システムなど、複数の段階で統合されている。
我々は,ラットノベギクスのコホート上でStarBASE-GPを評価し,身体の質量指数に関連する変異を同定し,その性能をランダムなベースラインと生物学的に有害なツールと比較した。
StarBASE-GPは、パレートフロントを優れた性能で一貫して進化させ、基礎的真理と新しい量的特質の両方を識別する精度を高め、将来の検証のための関連するターゲットを強調している。
進化的探索と関連する生物学的理論をフレキシブルな自動機械学習フレームワークに組み込むことで、StarBASE-GPは複雑な形質の変種発見を前進させる堅牢な可能性を証明している。
関連論文リスト
- OmniGenBench: A Modular Platform for Reproducible Genomic Foundation Models Benchmarking [21.177773831820673]
ゲノム基盤モデル (GFMs) は、ゲノムをデコードするトランスフォーメーションアプローチとして登場した。
GFMがAI駆動ゲノム学の展望を拡大し、再形成するにつれ、この分野は厳密で再現可能な評価の緊急の必要性に直面している。
我々は、GFM間のデータ、モデル、ベンチマーク、解釈可能性レイヤを統合するために設計されたモジュラーベンチマークプラットフォームであるOmniGenBenchを紹介します。
論文 参考訳(メタデータ) (2025-05-20T14:16:25Z) - Bidirectional Mamba for Single-Cell Data: Efficient Context Learning with Biological Fidelity [0.39945675027960637]
我々は、状態空間モデリングに基づいて構築された単一セル転写学のスケーラブルで効率的な基礎モデルであるGeneMambaを紹介した。
GeneMambaは、双方向の遺伝子コンテキストを線形時間複雑性でキャプチャし、トランスフォーマーベースラインよりもかなりの計算的ゲインを提供する。
我々は、マルチバッチ統合、細胞型アノテーション、遺伝子-遺伝子相関など様々なタスクにまたがってGeneMambaを評価し、高い性能、解釈可能性、堅牢性を示す。
論文 参考訳(メタデータ) (2025-04-22T20:34:47Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Network-based Neighborhood regression [0.0]
生物学的モジュールの現在の統計分析は、ネットワークデータを用いることなく、生物学的ネットワーク内の機能モジュールを検出するか、または生物学的特徴のサブグループ回帰を検出することに焦点を当てている。
本稿では,グローバルなコミュニティレベルの情報と,エンティティ間のローカル接続構造に依存する,新たなネットワークベースの地区回帰フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-04T18:08:40Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - Weighted Ensembles for Active Learning with Adaptivity [60.84896785303314]
本稿では,ラベル付きデータに漸進的に適応した重み付きGPモデルのアンサンブルについて述べる。
この新しいEGPモデルに基づいて、不確実性および不一致ルールに基づいて、一連の取得関数が出現する。
適応的に重み付けされたEGPベースの取得関数のアンサンブルも、さらなる性能向上のために導入されている。
論文 参考訳(メタデータ) (2022-06-10T11:48:49Z) - EPGAT: Gene Essentiality Prediction With Graph Attention Networks [1.1602089225841632]
グラフ注意ネットワーク(GAT)に基づく本質性予測手法であるEPGATを提案する。
本モデルでは,PPIネットワークから遺伝子必須性のパターンを直接学習し,ノード属性として符号化されたマルチオミクスデータから追加のエビデンスを統合する。
ヒトを含む4種の生物に対するEPGATをベンチマークし、AUCスコア0.78から0.97の範囲で遺伝子本質を正確に予測した。
論文 参考訳(メタデータ) (2020-07-19T13:47:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。