論文の概要: LLM4GRN: Discovering Causal Gene Regulatory Networks with LLMs -- Evaluation through Synthetic Data Generation
- arxiv url: http://arxiv.org/abs/2410.15828v1
- Date: Mon, 21 Oct 2024 09:46:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:12:38.471042
- Title: LLM4GRN: Discovering Causal Gene Regulatory Networks with LLMs -- Evaluation through Synthetic Data Generation
- Title(参考訳): LLM4GRN: LLMによる因果遺伝子制御ネットワークの発見 -- 合成データ生成による評価
- Authors: Tejumade Afonja, Ivaxi Sheth, Ruta Binkyte, Waqar Hanif, Thomas Ulas, Matthias Becker, Mario Fritz,
- Abstract要約: 遺伝子制御ネットワーク(GRN)は、単一細胞RNAシークエンシング(scRNA-seq)データにおける転写因子(TF)と標的遺伝子間の因果関係を表す。
GRN発見のための大規模言語モデル(LLM)の可能性を検討する。
- 参考スコア(独自算出の注目度): 36.48017303453982
- License:
- Abstract: Gene regulatory networks (GRNs) represent the causal relationships between transcription factors (TFs) and target genes in single-cell RNA sequencing (scRNA-seq) data. Understanding these networks is crucial for uncovering disease mechanisms and identifying therapeutic targets. In this work, we investigate the potential of large language models (LLMs) for GRN discovery, leveraging their learned biological knowledge alone or in combination with traditional statistical methods. We develop a task-based evaluation strategy to address the challenge of unavailable ground truth causal graphs. Specifically, we use the GRNs suggested by LLMs to guide causal synthetic data generation and compare the resulting data against the original dataset. Our statistical and biological assessments show that LLMs can support statistical modeling and data synthesis for biological research.
- Abstract(参考訳): 遺伝子制御ネットワーク(GRN)は、単一細胞RNAシークエンシング(scRNA-seq)データにおける転写因子(TF)と標的遺伝子間の因果関係を表す。
これらのネットワークを理解することは、疾患のメカニズムを解明し、治療対象を特定するために重要である。
本研究では,GRN発見のための大規模言語モデル(LLM)の可能性を検討する。
本研究では,未利用の真理因果グラフの課題に対処するタスクベース評価戦略を開発する。
具体的には, LLM が提案する GRN を用いて因果合成データ生成を誘導し, 得られたデータを元のデータセットと比較する。
我々の統計的および生物学的評価は、LLMが生物学的研究のための統計モデリングとデータ合成を支援できることを示している。
関連論文リスト
- Knowledge-Driven Feature Selection and Engineering for Genotype Data with Large Language Models [35.084222907099644]
FREEFORM, Free-flow Reasoning, Ensembling for Enhanced Feature Output and Robust Modeling。
https://github.com/PennShenLab/FREEFORM.com/FreeFORMはGitHubのオープンソースフレームワークとして利用可能だ。
論文 参考訳(メタデータ) (2024-10-02T17:53:08Z) - Targeted Cause Discovery with Data-Driven Learning [66.86881771339145]
本稿では,観測結果から対象変数の因果変数を推定する機械学習手法を提案する。
我々は、シミュレートされたデータの教師あり学習を通じて因果関係を特定するために訓練されたニューラルネットワークを用いる。
大規模遺伝子制御ネットワークにおける因果関係の同定における本手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-08-29T02:21:11Z) - Gene Regulatory Network Inference from Pre-trained Single-Cell Transcriptomics Transformer with Joint Graph Learning [10.44434676119443]
単一細胞RNAシークエンシング(scRNA-seq)データから遺伝子制御ネットワーク(GRN)を推定することは複雑である。
本研究では,単一セルBERTを用いた事前学習型トランスモデル(scBERT)を活用することで,この問題に対処する。
本稿では,単一セル言語モデルによって学習されたリッチな文脈表現と,GRNで符号化された構造化知識を組み合わせた,新しい共同グラフ学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-25T16:42:08Z) - Anomaly Detection of Tabular Data Using LLMs [54.470648484612866]
我々は,事前訓練された大規模言語モデル (LLM) がゼロショットバッチレベルの異常検出器であることを示す。
本稿では,実異常検出におけるLCMの潜在性を明らかにするために,エンドツーエンドの微調整手法を提案する。
論文 参考訳(メタデータ) (2024-06-24T04:17:03Z) - MMIL: A novel algorithm for disease associated cell type discovery [58.044870442206914]
単一細胞データセットは、しばしば個々の細胞ラベルを欠いているため、病気に関連する細胞を特定することは困難である。
セルレベルの分類器の訓練と校正を可能にする予測手法であるMixture Modeling for Multiple Learning Instance (MMIL)を導入する。
論文 参考訳(メタデータ) (2024-06-12T15:22:56Z) - Causal Inference in Gene Regulatory Networks with GFlowNet: Towards
Scalability in Large Systems [87.45270862120866]
我々は、GRNにおける因果構造学習を強化する新しいフレームワークとしてSwift-DynGFNを紹介した。
具体的には、Swift-DynGFNは、並列化を高め、計算コストを下げるために、遺伝子的に独立性を利用する。
論文 参考訳(メタデータ) (2023-10-05T14:59:19Z) - DiscoGen: Learning to Discover Gene Regulatory Networks [30.83574314774383]
遺伝子制御ネットワーク(GRN)の正確な推論は、生物学における重要な課題である。
ニューラルネットワークに基づく因果発見手法の最近の進歩は因果発見を著しく改善している。
生物学に最先端の因果発見手法を適用することは、ノイズの多いデータや多数のサンプルのような課題を引き起こす。
本稿では、遺伝子発現の測定をノイズ化し、介入データを処理するニューラルネットワークベースのGRN発見手法であるDiscoGenを紹介する。
論文 参考訳(メタデータ) (2023-04-12T13:02:49Z) - TRAPDOOR: Repurposing backdoors to detect dataset bias in machine
learning-based genomic analysis [15.483078145498085]
データセット内のグループの下位表現は、特定のグループの不正確な予測につながる可能性があるため、システム的識別問題を悪化させる可能性がある。
本稿では,ニューラルネットワークのバックドアであるTRAPDOORを提案する。
実世界のがんデータセットを用いて、すでに白人個人に対して存在するバイアスでデータセットを分析し、データセットにバイアスを人工的に導入する。
論文 参考訳(メタデータ) (2021-08-14T17:02:02Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - Gene Regulatory Network Inference with Latent Force Models [1.2691047660244335]
タンパク質合成の遅延は、RNAシークエンシング時系列データから遺伝子制御ネットワーク(GRN)を構築する際に相反する効果をもたらす。
実験データに適合するメカニスティック方程式とベイズ的アプローチを組み合わせることで,翻訳遅延を組み込んだモデルを提案する。
論文 参考訳(メタデータ) (2020-10-06T09:03:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。