論文の概要: A Brain Cell Type Resource Created by Large Language Models and a Multi-Agent AI System for Collaborative Community Annotation
- arxiv url: http://arxiv.org/abs/2510.17064v1
- Date: Mon, 20 Oct 2025 00:37:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.273587
- Title: A Brain Cell Type Resource Created by Large Language Models and a Multi-Agent AI System for Collaborative Community Annotation
- Title(参考訳): 大規模言語モデルによる脳細胞型資源と協調型コミュニティアノテーションのためのマルチエージェントAIシステム
- Authors: Rongbin Li, Wenbo Chen, Zhao Li, Rodrigo Munoz-Castaneda, Jinbo Li, Neha S. Maurya, Arnav Solanki, Huan He, Hanwen Xing, Meaghan Ramlakhan, Zachary Wise, Zhuhao Wu, Hua Xu, Michael Hawrylycz, W. Jim Zheng,
- Abstract要約: 単細胞RNAシークエンシングは、多様な細胞タイプとその転写学的シグネチャを同定する能力を変革した。
Gene Set Enrichment Analysis (GSEA)のような従来の手法は、よく計算されたアノテーションに依存している。
我々は、自由テキスト記述とオントロジーラベルを統合する新しいマルチエージェントAIシステムであるBRAINCELL-AIDを提案する。
- 参考スコア(独自算出の注目度): 10.987335770634884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single-cell RNA sequencing has transformed our ability to identify diverse cell types and their transcriptomic signatures. However, annotating these signatures-especially those involving poorly characterized genes-remains a major challenge. Traditional methods, such as Gene Set Enrichment Analysis (GSEA), depend on well-curated annotations and often perform poorly in these contexts. Large Language Models (LLMs) offer a promising alternative but struggle to represent complex biological knowledge within structured ontologies. To address this, we present BRAINCELL-AID (BRAINCELL-AID: https://biodataai.uth.edu/BRAINCELL-AID), a novel multi-agent AI system that integrates free-text descriptions with ontology labels to enable more accurate and robust gene set annotation. By incorporating retrieval-augmented generation (RAG), we developed a robust agentic workflow that refines predictions using relevant PubMed literature, reducing hallucinations and enhancing interpretability. Using this workflow, we achieved correct annotations for 77% of mouse gene sets among their top predictions. Applying this approach, we annotated 5,322 brain cell clusters from the comprehensive mouse brain cell atlas generated by the BRAIN Initiative Cell Census Network, enabling novel insights into brain cell function by identifying region-specific gene co-expression patterns and inferring functional roles of gene ensembles. BRAINCELL-AID also identifies Basal Ganglia-related cell types with neurologically meaningful descriptions. Hence, we create a valuable resource to support community-driven cell type annotation.
- Abstract(参考訳): 単細胞RNAシークエンシングは、多様な細胞タイプとその転写学的シグネチャを同定する能力を変革した。
しかし、これらのシグネチャ、特に特徴の乏しい遺伝子をアノテートすることは大きな課題である。
Gene Set Enrichment Analysis (GSEA) のような従来の手法は、よく計算されたアノテーションに依存しており、これらの文脈ではよくない。
大規模言語モデル(LLM)は有望な代替手段を提供するが、構造化オントロジー内で複雑な生物学的知識を表現するのに苦労する。
この問題を解決するために、我々は、より正確で堅牢な遺伝子セットアノテーションを実現するために、オントロジーラベルと自由テキスト記述を統合する新しいマルチエージェントAIシステムであるBRAINCELL-AID(BRAINCELL-AID: https://biodataai.uth.edu/BRAINCELL-AID)を提案する。
検索強化世代(RAG)を組み込むことにより,関連するPubMed文献を用いて予測を洗練し,幻覚を低減し,解釈可能性を高める堅牢なエージェントワークフローを開発した。
このワークフローを用いて,マウスの遺伝子セットの77%に対する正しいアノテーションを最上位の予測で達成した。
本手法を応用し,BRAIN Initiative Cell Census Networkが生成する包括的マウス脳細胞アトラスから5,322個の脳細胞クラスターをアノテートし,領域特異的な遺伝子共発現パターンを同定し,遺伝子アンサンブルの機能的役割を推測することにより,脳細胞機能に対する新たな洞察を可能にした。
BRAINCELL-AIDは神経学的に意味のある記述を持つ基底ガングリア関連細胞型も同定する。
したがって、我々はコミュニティ主導の細胞型アノテーションをサポートする貴重なリソースを作成します。
関連論文リスト
- Contrastive Learning Enhances Language Model Based Cell Embeddings for Low-Sample Single Cell Transcriptomics [3.7907528918903797]
大規模言語モデル(LLM)は、自然言語処理や生成、コンピュータビジョン、マルチモーダル学習といった分野にまたがるリッチな表現を生成する能力を示している。
本稿では、単一セルRNAシークエンシング(scRNA-seq)とLLMを統合し、知識インフォームド遺伝子埋め込みを導出する計算フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-28T00:45:39Z) - Bridging Large Language Models and Single-Cell Transcriptomics in Dissecting Selective Motor Neuron Vulnerability [1.9638866836733835]
NCBI遺伝子データベースから,遺伝子特異的なテキストアノテーションを用いて生物学的に文脈化された細胞埋め込みを生成する。
単一細胞RNAシークエンシング(scRNA-seq)データセットの各細胞について、遺伝子発現レベルで遺伝子をランク付けし、NCBI遺伝子記述を検索し、これらの記述をベクトル埋め込み表現に変換する。
論文 参考訳(メタデータ) (2025-05-12T03:39:33Z) - GRAPE: Heterogeneous Graph Representation Learning for Genetic Perturbation with Coding and Non-Coding Biotype [51.58774936662233]
遺伝子制御ネットワーク(GRN)の構築は、遺伝的摂動の影響を理解し予測するために不可欠である。
本研究では,事前学習した大規模言語モデルとDNAシークエンスモデルを用いて,遺伝子記述やDNAシークエンスデータから特徴を抽出する。
我々は、遺伝子摂動において初めて遺伝子バイオタイプ情報を導入し、細胞プロセスの制御において異なるバイオタイプを持つ遺伝子の異なる役割をシミュレートした。
論文 参考訳(メタデータ) (2025-05-06T03:35:24Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - scReader: Prompting Large Language Models to Interpret scRNA-seq Data [12.767105992391555]
本稿では,大規模言語モデルの一般的な知識機能と,単一セルオミクスデータ解釈のためのドメイン固有表現モデルを統合する,革新的なハイブリッドアプローチを提案する。
単細胞遺伝子レベルでの遺伝子発現データをプロンプトで入力することにより、様々な種および細胞タイプにわたる遺伝子発現の差分レベルに基づいて、細胞表現を効果的にモデル化する。
論文 参考訳(メタデータ) (2024-12-24T04:28:42Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Single-Cell Deep Clustering Method Assisted by Exogenous Gene
Information: A Novel Approach to Identifying Cell Types [50.55583697209676]
我々は,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。
クラスタリング過程において,両情報の集合を統合し,細胞と遺伝子の特徴を再構成し,識別的表現を生成する。
本研究は、細胞の特徴と分布に関する知見を高め、疾患の早期診断と治療の基礎となる。
論文 参考訳(メタデータ) (2023-11-28T09:14:55Z) - SemanticCAP: Chromatin Accessibility Prediction Enhanced by Features
Learning from a Language Model [3.0643865202019698]
本稿では、ゲノムのアクセス可能な領域を特定するためのSemanticCAPという新しいソリューションを提案する。
遺伝子配列のコンテキストをモデル化する遺伝子モデルを導入し、遺伝子配列の効果的な表現を提供する。
公開ベンチマークによる他のシステムと比較すると,我々のモデルは性能が向上することが判明した。
論文 参考訳(メタデータ) (2022-04-05T11:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。