論文の概要: GeneAgent: Self-verification Language Agent for Gene Set Knowledge Discovery using Domain Databases
- arxiv url: http://arxiv.org/abs/2405.16205v1
- Date: Sat, 25 May 2024 12:35:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 00:31:06.114329
- Title: GeneAgent: Self-verification Language Agent for Gene Set Knowledge Discovery using Domain Databases
- Title(参考訳): GeneAgent: ドメインデータベースを用いた遺伝子セット知識発見のための自己検証言語エージェント
- Authors: Zhizheng Wang, Qiao Jin, Chih-Hsuan Wei, Shubo Tian, Po-Ting Lai, Qingqing Zhu, Chi-Ping Day, Christina Ross, Zhiyong Lu,
- Abstract要約: 自己検証機能を備えた第一種言語エージェントGeneAgentを提案する。
様々な生物学的データベースと自律的に相互作用し、精度を高め、幻覚の発生を減らす。
異なるソースから1,106の遺伝子セットをベンチマークすると、GeneAgentは標準のGPT-4よりずっと優れています。
- 参考スコア(独自算出の注目度): 5.831842925038342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gene set knowledge discovery is essential for advancing human functional genomics. Recent studies have shown promising performance by harnessing the power of Large Language Models (LLMs) on this task. Nonetheless, their results are subject to several limitations common in LLMs such as hallucinations. In response, we present GeneAgent, a first-of-its-kind language agent featuring self-verification capability. It autonomously interacts with various biological databases and leverages relevant domain knowledge to improve accuracy and reduce hallucination occurrences. Benchmarking on 1,106 gene sets from different sources, GeneAgent consistently outperforms standard GPT-4 by a significant margin. Moreover, a detailed manual review confirms the effectiveness of the self-verification module in minimizing hallucinations and generating more reliable analytical narratives. To demonstrate its practical utility, we apply GeneAgent to seven novel gene sets derived from mouse B2905 melanoma cell lines, with expert evaluations showing that GeneAgent offers novel insights into gene functions and subsequently expedites knowledge discovery.
- Abstract(参考訳): 遺伝子組の知識発見はヒト機能ゲノムの進化に不可欠である。
近年の研究では,この課題に対してLarge Language Models (LLM) のパワーを活用することで,有望な性能を示した。
それにもかかわらず、これらの結果は幻覚などのLSMに共通するいくつかの制限を受ける。
そこで本研究では,自己検証機能を備えた第一種言語エージェントGeneAgentを提案する。
様々な生物学的データベースと自律的に相互作用し、関連するドメイン知識を活用して精度を高め、幻覚の発生を減らす。
異なるソースから1,106の遺伝子セットをベンチマークすると、GeneAgentは標準のGPT-4よりずっと優れています。
さらに、より詳細なマニュアルレビューでは、幻覚を最小化し、より信頼性の高い分析物語を生成するための自己検証モジュールの有効性を確認している。
その実用性を実証するために、マウスB2905メラノーマ細胞株由来の7つの新規遺伝子セットにGeneAgentを適用する。
関連論文リスト
- BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Experiments [116.43369600518163]
我々は,新たな実験を設計し,その成果の理由を判断し,仮説空間を効率的にナビゲートし,望ましい解を得るエージェントであるBioDiscoveryAgentを開発した。
BioDiscoveryAgentは、機械学習モデルをトレーニングしたり、取得関数を明示的に設計することなく、新しい実験を独自に設計することができる。
5つのデータセットで所望の表現型を検出することで平均18%の改善を実現している。
論文 参考訳(メタデータ) (2024-05-27T19:57:17Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Single-Cell Deep Clustering Method Assisted by Exogenous Gene
Information: A Novel Approach to Identifying Cell Types [50.55583697209676]
我々は,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。
クラスタリング過程において,両情報の集合を統合し,細胞と遺伝子の特徴を再構成し,識別的表現を生成する。
本研究は、細胞の特徴と分布に関する知見を高め、疾患の早期診断と治療の基礎となる。
論文 参考訳(メタデータ) (2023-11-28T09:14:55Z) - Genetic InfoMax: Exploring Mutual Information Maximization in
High-Dimensional Imaging Genetics Studies [50.11449968854487]
遺伝子ワイド・アソシエーション(GWAS)は、遺伝的変異と特定の形質の関係を同定するために用いられる。
画像遺伝学の表現学習は、GWASによって引き起こされる固有の課題により、ほとんど探索されていない。
本稿では,GWAS の具体的な課題に対処するために,トランスモーダル学習フレームワーク Genetic InfoMax (GIM) を提案する。
論文 参考訳(メタデータ) (2023-09-26T03:59:21Z) - Evaluation of large language models for discovery of gene set function [0.8864741602534821]
5つの大規模言語モデル (LLM) を, 遺伝子セットで表される共通の生物学的機能を発見する能力について評価した。
遺伝子オントロジーの標準遺伝子セットに対するベンチマークでは、GPT-4はキュレートされた名前やより一般的な概念を確実に回収した。
オミクスデータから得られた遺伝子セットでは、GPT-4は古典的な機能強化によって報告されていない新しい機能を同定した。
論文 参考訳(メタデータ) (2023-09-07T21:10:48Z) - SemanticCAP: Chromatin Accessibility Prediction Enhanced by Features
Learning from a Language Model [3.0643865202019698]
本稿では、ゲノムのアクセス可能な領域を特定するためのSemanticCAPという新しいソリューションを提案する。
遺伝子配列のコンテキストをモデル化する遺伝子モデルを導入し、遺伝子配列の効果的な表現を提供する。
公開ベンチマークによる他のシステムと比較すると,我々のモデルは性能が向上することが判明した。
論文 参考訳(メタデータ) (2022-04-05T11:47:58Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z) - Feature reduction for machine learning on molecular features: The
GeneScore [58.720142291102135]
GeneScoreは、バイオメディカルデータの機械学習分析のための機能削減の概念です。
GeneScoreは癌実体の分類において二項行列よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-14T10:58:39Z) - SimpleChrome: Encoding of Combinatorial Effects for Predicting Gene
Expression [8.326669256957352]
遺伝子のヒストン修飾表現を学習するディープラーニングモデルであるSimpleChromeを紹介します。
このモデルから得られた特徴により、遺伝子間相互作用の潜在効果と標的遺伝子の発現に対する直接遺伝子調節をよりよく理解することができます。
論文 参考訳(メタデータ) (2020-12-15T23:30:36Z) - Mining Functionally Related Genes with Semi-Supervised Learning [0.0]
我々は、豊富な機能セットを導入し、半教師付き学習アプローチとともにそれらを使用する。
正およびラベルなし例(LPU)による学習の枠組みは機能的関連遺伝子のマイニングに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-11-05T20:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。