論文の概要: Knowledge-guided Contextual Gene Set Analysis Using Large Language Models
- arxiv url: http://arxiv.org/abs/2506.04303v1
- Date: Wed, 04 Jun 2025 15:56:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.343677
- Title: Knowledge-guided Contextual Gene Set Analysis Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いた知識誘導型文脈的遺伝子セット解析
- Authors: Zhizheng Wang, Chi-Ping Day, Chih-Hsuan Wei, Qiao Jin, Robert Leaman, Yifan Yang, Shubo Tian, Aodong Qiu, Yin Fang, Qingqing Zhu, Xinghua Lu, Zhiyong Lu,
- Abstract要約: cGSAは、コンテキスト対応遺伝子セット分析のためのAI駆動のフレームワークである。
遺伝子クラスタの検出、濃縮分析、および大きな言語モデルを統合し、生物学的に意味のある経路を特定する。
19の疾患と10の生物学的メカニズムにまたがる手作業による102の遺伝子セットのベンチマークでは、cGSAがベースライン法を30%以上上回っていることが示されている。
- 参考スコア(独自算出の注目度): 12.297700696097786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gene set analysis (GSA) is a foundational approach for interpreting genomic data of diseases by linking genes to biological processes. However, conventional GSA methods overlook clinical context of the analyses, often generating long lists of enriched pathways with redundant, nonspecific, or irrelevant results. Interpreting these requires extensive, ad-hoc manual effort, reducing both reliability and reproducibility. To address this limitation, we introduce cGSA, a novel AI-driven framework that enhances GSA by incorporating context-aware pathway prioritization. cGSA integrates gene cluster detection, enrichment analysis, and large language models to identify pathways that are not only statistically significant but also biologically meaningful. Benchmarking on 102 manually curated gene sets across 19 diseases and ten disease-related biological mechanisms shows that cGSA outperforms baseline methods by over 30%, with expert validation confirming its increased precision and interpretability. Two independent case studies in melanoma and breast cancer further demonstrate its potential to uncover context-specific insights and support targeted hypothesis generation.
- Abstract(参考訳): 遺伝子セット解析(英: Gene set analysis、GSA)は、遺伝子を生物学的プロセスにリンクすることで病気のゲノムデータを解析するための基礎的なアプローチである。
しかし、従来のGSA法は、分析の臨床的文脈を見落とし、しばしば冗長、非特異的、あるいは無関係な結果の豊富な経路の長いリストを生成する。
これらを解釈するには、広範囲でアドホックな手作業が必要で、信頼性と再現性の両方が低下する。
この制限に対処するために、文脈認識経路優先順位付けを取り入れてGSAを強化する、新しいAI駆動型フレームワークであるcGSAを紹介する。
cGSAは、遺伝子クラスターの検出、濃縮分析、および大きな言語モデルを統合し、統計的に重要なだけでなく生物学的に有意義な経路を特定する。
19の疾患と10の生物学的メカニズムからなる102個の手作業による遺伝子セットのベンチマークでは、cGSAがベースラインメソッドを30%以上上回っており、専門家による検証により精度と解釈可能性の向上が確認されている。
メラノーマと乳癌における2つの独立したケーススタディは、文脈特異的な洞察を明らかにし、ターゲット仮説の生成をサポートする可能性をさらに示している。
関連論文リスト
- Biological Pathway Guided Gene Selection Through Collaborative Reinforcement Learning [25.2831953927341]
多エージェント強化学習(MARL)を用いた統計的選択と生物学的経路知識を統合する新しい枠組みを提案する。
本フレームワークは,グラフニューラルネットワークによる状態表現による経路知識,遺伝子中心性と経路被覆性を組み合わせた報酬機構,共有メモリと集中的批判コンポーネントを用いた協調学習戦略を取り入れた。
論文 参考訳(メタデータ) (2025-05-30T03:01:07Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - scGSDR: Harnessing Gene Semantics for Single-Cell Pharmacological Profiling [5.831554646284266]
scGSDRは、細胞状態と遺伝子シグナル伝達経路の知識に基づく2つの計算パイプラインを統合するモデルである。
scGSDRは、遺伝子セマンティクスを組み込んで予測性能を高め、解釈可能性モジュールを使用する。
モデルはシングルドラッグの予測からドラッグの組み合わせを含むシナリオまで拡張された。
論文 参考訳(メタデータ) (2025-02-02T15:43:20Z) - Survey and Improvement Strategies for Gene Prioritization with Large Language Models [61.24568051916653]
大規模言語モデル (LLM) は, 医学検査において良好に機能しているが, 希少な遺伝疾患の診断における有効性は評価されていない。
表現型と可溶性レベルに基づいて, マルチエージェントとヒトフェノタイプオントロジー(HPO)を分類した。
ベースラインでは、GPT-4は他のLLMよりも優れており、因果遺伝子を正しくランク付けする際の精度は30%近く向上した。
論文 参考訳(メタデータ) (2025-01-30T23:03:03Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Granger causal inference on DAGs identifies genomic loci regulating
transcription [77.58911272503771]
GrID-Netは、DBG構造化システムにおけるGranger因果推論のためのラタグメッセージパッシングを備えたグラフニューラルネットワークに基づくフレームワークである。
我々の応用は、特定の遺伝子の調節を仲介するゲノム座を同定する単一セルマルチモーダルデータの解析である。
論文 参考訳(メタデータ) (2022-10-18T21:15:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。