論文の概要: AGP: A Novel Arabidopsis thaliana Genomics-Phenomics Dataset and its HyperGraph Baseline Benchmarking
- arxiv url: http://arxiv.org/abs/2508.14934v1
- Date: Tue, 19 Aug 2025 21:21:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.031983
- Title: AGP: A Novel Arabidopsis thaliana Genomics-Phenomics Dataset and its HyperGraph Baseline Benchmarking
- Title(参考訳): AGP: Arabidopsis thaliana Genomics-Phenomics Datasetとそのハイパーグラフベースラインベンチマーク
- Authors: Manuel Serna-Aguilera, Fiona L. Goggin, Aranyak Goswami, Alexander Bucksch, Suxing Liu, Khoa Luu,
- Abstract要約: 本研究では,シロイヌナズナの遺伝子発現プロファイルと表現型形質測定をリンクした解析データセットを提案する。
AGPは表現型予測や解釈可能なグラフ学習などのタスクをサポートする。
我々の知る限りでは、これはマルチモーダル遺伝子情報と異種形質または表現型データを提供する最初のデータセットである。
- 参考スコア(独自算出の注目度): 43.90415454135298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding which genes control which traits in an organism remains one of the central challenges in biology. Despite significant advances in data collection technology, our ability to map genes to traits is still limited. This genome-to-phenome (G2P) challenge spans several problem domains, including plant breeding, and requires models capable of reasoning over high-dimensional, heterogeneous, and biologically structured data. Currently, however, many datasets solely capture genetic information or solely capture phenotype information. Additionally, phenotype data is very heterogeneous, which many datasets do not fully capture. The critical drawback is that these datasets are not integrated, that is, they do not link with each other to describe the same biological specimens. This limits machine learning models' ability to be informed on the various aspects of these specimens, impacting the breadth of correlations learned, and therefore their ability to make more accurate predictions. To address this gap, we present the Arabidopsis Genomics-Phenomics (AGP) Dataset, a curated multi-modal dataset linking gene expression profiles with phenotypic trait measurements in Arabidopsis thaliana, a model organism in plant biology. AGP supports tasks such as phenotype prediction and interpretable graph learning. In addition, we benchmark conventional regression and explanatory baselines, including a biologically-informed hypergraph baseline, to validate gene-trait associations. To the best of our knowledge, this is the first dataset that provides multi-modal gene information and heterogeneous trait or phenotype data for the same Arabidopsis thaliana specimens. With AGP, we aim to foster the research community towards accurately understanding the connection between genotypes and phenotypes using gene information, higher-order gene pairings, and trait data from several sources.
- Abstract(参考訳): 生物においてどの遺伝子がどの形質を制御するかを理解することは、生物学における中心的な課題の1つである。
データ収集技術の進歩にもかかわらず、遺伝子を形質にマッピングする能力はまだ限られている。
このゲノム・ツー・フェノム(G2P)チャレンジは、植物の育種を含むいくつかの問題領域にまたがり、高次元、異質、生物学的に構造化されたデータを推論できるモデルを必要とする。
しかし、現在、多くのデータセットは遺伝子情報のみをキャプチャするか、表現型情報のみをキャプチャしている。
さらに、表現型データは非常に異質であり、多くのデータセットが完全にはキャプチャできない。
重要な欠点は、これらのデータセットは統合されておらず、同じ生物学的標本を記述するために互いにリンクしていないことである。
これにより、機械学習モデルがこれらの標本の様々な側面について情報を得る能力が制限され、学習した相関の幅に影響を及ぼし、より正確な予測を行う能力が制限される。
このギャップに対処するため、植物生物学のモデル生物であるシロイヌナズナの遺伝子発現プロファイルと表現型形質測定をリンクする多モードデータセットである、シロイヌナズナゲノムフェノミクス(AGP)データセットを提示する。
AGPは表現型予測や解釈可能なグラフ学習などのタスクをサポートする。
さらに、生物学的にインフォームドされたハイパーグラフベースラインを含む従来の回帰と説明のベースラインをベンチマークし、遺伝子・形質関連性を検証する。
我々の知る限りでは、同じシロイヌナズナの標本に対して、マルチモーダル遺伝子情報と異種形質または表現型データを提供する最初のデータセットである。
AGPでは、遺伝子情報、高次遺伝子ペアリング、および複数のソースからの形質データを用いて、遺伝子型と表現型の関係を正確に理解する研究コミュニティを育成することを目的としている。
関連論文リスト
- GRAPE: Heterogeneous Graph Representation Learning for Genetic Perturbation with Coding and Non-Coding Biotype [51.58774936662233]
遺伝子制御ネットワーク(GRN)の構築は、遺伝的摂動の影響を理解し予測するために不可欠である。
本研究では,事前学習した大規模言語モデルとDNAシークエンスモデルを用いて,遺伝子記述やDNAシークエンスデータから特徴を抽出する。
我々は、遺伝子摂動において初めて遺伝子バイオタイプ情報を導入し、細胞プロセスの制御において異なるバイオタイプを持つ遺伝子の異なる役割をシミュレートした。
論文 参考訳(メタデータ) (2025-05-06T03:35:24Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - G2PDiffusion: Cross-Species Genotype-to-Phenotype Prediction via Evolutionary Diffusion [108.94237816552024]
本稿では,DNAから形態像を生成する最初の遺伝子型対フェノタイプ拡散モデル(G2PDiffusion)を提案する。
本モデルは,1)保存および共進化パターンを識別するMSA検索エンジン,2)複雑なジェノタイプ-環境相互作用を効果的にモデル化する環境対応MSA条件エンコーダ,3)遺伝子型-フェノタイプ整合性を改善する適応型表現的アライメントモジュールを含む。
論文 参考訳(メタデータ) (2025-02-07T06:16:31Z) - A Comparative Analysis of Gene Expression Profiling by Statistical and
Machine Learning Approaches [1.8954222800767324]
がん検体を分類する機械学習モデルの生物学的および方法論的限界について論じる。
遺伝子ランキングはこれらのモデルに適応した説明可能性法から得られる。
ブラックボックスニューラルネットワークによって学習された情報は、微分表現の概念と関連している。
論文 参考訳(メタデータ) (2024-02-01T18:17:36Z) - SimpleChrome: Encoding of Combinatorial Effects for Predicting Gene
Expression [8.326669256957352]
遺伝子のヒストン修飾表現を学習するディープラーニングモデルであるSimpleChromeを紹介します。
このモデルから得られた特徴により、遺伝子間相互作用の潜在効果と標的遺伝子の発現に対する直接遺伝子調節をよりよく理解することができます。
論文 参考訳(メタデータ) (2020-12-15T23:30:36Z) - A Cross-Level Information Transmission Network for Predicting Phenotype
from New Genotype: Application to Cancer Precision Medicine [37.442717660492384]
本稿では,CLEIT(Cross-Level Information Transmission Network)フレームワークを提案する。
ドメイン適応にインスパイアされたCLEITは、まずハイレベルドメインの潜在表現を学び、その後、接地木埋め込みとして利用する。
体細胞突然変異による抗がん剤感受性の予測におけるCLEITの有効性と性能の向上を示す。
論文 参考訳(メタデータ) (2020-10-09T22:01:00Z) - A Sparse Graph-Structured Lasso Mixed Model for Genetic Association with
Confounding Correction [28.364820868064893]
本稿では,特徴量からの関連性情報をデータセットに組み込んだグラフ構造化線形混合モデル(sGLMM)を提案する。
提案モデルは他の既存手法よりも優れており,人口構造と共有信号の両方から相関関係をモデル化できることを示す。
また、本モデルで発見されたヒトアルツハイマー病の因果遺伝子変異について検討し、最も重要な遺伝子座のいくつかを正当化する。
論文 参考訳(メタデータ) (2017-11-11T16:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。