論文の概要: ELISA: An Interpretable Hybrid Generative AI Agent for Expression-Grounded Discovery in Single-Cell Genomics
- arxiv url: http://arxiv.org/abs/2603.11872v1
- Date: Thu, 12 Mar 2026 12:46:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.077334
- Title: ELISA: An Interpretable Hybrid Generative AI Agent for Expression-Grounded Discovery in Single-Cell Genomics
- Title(参考訳): ELISA:シングルセルゲノミクスにおける表現中心発見のための解釈可能なハイブリッドAIエージェント
- Authors: Omar Coser,
- Abstract要約: 本稿では,BioBERTに基づくセマンティック検索とSCGPT表現の埋め込みを統合化するための解釈可能なフレームワークであるEmbedding-Linked Interactive Single-cell Agentを紹介する。
炎症性肺疾患、小児および成人がん、オルガノイドモデル、健康な組織、神経発達にまたがる6つの多様なscRNA-seqデータセットをベンチマークした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Translating single-cell RNA sequencing (scRNA-seq) data into mechanistic biological hypotheses remains a critical bottleneck, as agentic AI systems lack direct access to transcriptomic representations while expression foundation models remain opaque to natural language. Here we introduce ELISA (Embedding-Linked Interactive Single-cell Agent), an interpretable framework that unifies scGPT expression embeddings with BioBERT-based semantic retrieval and LLM-mediated interpretation for interactive single-cell discovery. An automatic query classifier routes inputs to gene marker scoring, semantic matching, or reciprocal rank fusion pipelines depending on whether the query is a gene signature, natural language concept, or mixture of both. Integrated analytical modules perform pathway activity scoringacross 60+ gene sets, ligand--receptor interaction prediction using 280+ curated pairs, condition-aware comparative analysis, and cell-type proportion estimation all operating directly on embedded data without access to the original count matrix. Benchmarked across six diverse scRNA-seq datasets spanning inflammatory lung disease, pediatric and adult cancers, organoid models, healthy tissue, and neurodevelopment, ELISA significantly outperforms CellWhisperer in cell type retrieval (combined permutation test, $p < 0.001$), with particularly large gains on gene-signature queries (Cohen's $d = 5.98$ for MRR). ELISA replicates published biological findings (mean composite score 0.90) with near-perfect pathway alignment and theme coverage (0.98 each), and generates candidate hypotheses through grounded LLM reasoning, bridging the gap between transcriptomic data exploration and biological discovery. Code available at: https://github.com/omaruno/ELISA-An-AI-Agent-for-Expression-Grounded-Discovery-in-Single-Cell-Genomi cs.git (If you use ELISA in your research, please cite this work).
- Abstract(参考訳): 単細胞RNAシークエンシング(scRNA-seq)データを機械的生物学的仮説に翻訳することは、エージェントAIシステムが転写表現への直接アクセスを欠いている一方で、表現基盤モデルは自然言語に不透明であるため、依然として重要なボトルネックである。
ELISA(Embedding-Linked Interactive Single-cell Agent)は,BioBERTをベースとしたセマンティック検索とLLMによる対話型シングルセル発見のためのScGPT表現の埋め込みを統一する,解釈可能なフレームワークである。
自動クエリ分類器は、クエリが遺伝子シグネチャ、自然言語概念、または両者の混合であるかに応じて、遺伝子マーカーのスコアリング、セマンティックマッチング、あるいは相互のランク融合パイプラインに入力をルーティングする。
統合解析モジュールは、60以上の遺伝子セットにまたがる経路活性スコアリング、280以上のキュレートされたペアを用いたリガンド-受容体相互作用予測、条件認識比較分析、細胞型比率推定などを実行する。
ELISAは炎症性肺疾患、小児および成人がん、オルガノイドモデル、健康な組織、神経発達にまたがる6つの異なるscRNA-seqデータセットでベンチマークされ、細胞型検索においてCellWhispererよりも著しく優れており(組換え置換テスト、$p < 0.001$)、遺伝子署名クエリ(コーエンの$d = 5.98$ for MRR)に大きな利益がある。
ELISAは、ほぼ完全な経路アライメントとテーマカバレッジ (0.98) で公表された生物学的知見(平均合成スコア0.90)を複製し、基底的LCM推論により仮説を導出し、転写学的データ探索と生物学的発見のギャップを埋める。
コードは、https://github.com/omaruno/ELISA-An-AI-Agent-for-Expression-Grounded-Discovery-in-Single-Cell-Genomi cs.gitで公開されている。
関連論文リスト
- Retrieval-Augmented Generation for Predicting Cellular Responses to Gene Perturbation [11.439588896862155]
PT-RAG(Perturbation-aware Two-stage Retrieval-Augmented Generation)は、レトリーバル-Augmented Generationを従来の言語モデルから細胞生物学まで拡張する新しいフレームワークである。
本研究は,遺伝子摂動に対する細胞応答をモデル化するための将来的なパラダイムとして,検索増強世代を確立した。
論文 参考訳(メタデータ) (2026-03-07T14:31:27Z) - A Brain Cell Type Resource Created by Large Language Models and a Multi-Agent AI System for Collaborative Community Annotation [10.987335770634884]
単細胞RNAシークエンシングは、多様な細胞タイプとその転写学的シグネチャを同定する能力を変革した。
Gene Set Enrichment Analysis (GSEA)のような従来の手法は、よく計算されたアノテーションに依存している。
我々は、自由テキスト記述とオントロジーラベルを統合する新しいマルチエージェントAIシステムであるBRAINCELL-AIDを提案する。
論文 参考訳(メタデータ) (2025-10-20T00:37:55Z) - HySemRAG: A Hybrid Semantic Retrieval-Augmented Generation Framework for Automated Literature Synthesis and Methodological Gap Analysis [55.2480439325792]
HySemRAGは、Extract, Transform, Load (ETL)パイプラインとRetrieval-Augmented Generation (RAG)を組み合わせたフレームワークである。
システムは、マルチ層アプローチを通じて既存のRAGアーキテクチャの制限に対処する。
論文 参考訳(メタデータ) (2025-08-01T20:30:42Z) - Unlasting: Unpaired Single-Cell Multi-Perturbation Estimation by Dual Conditional Diffusion Implicit Bridges [68.98973318553983]
本稿では,Dual Diffusion Implicit Bridges (DDIB) に基づくフレームワークを提案する。
我々は、生物学的に意味のある方法で摂動シグナルを伝達するために遺伝子制御ネットワーク(GRN)情報を統合する。
また、サイレント遺伝子を予測し、生成したプロファイルの品質を向上させるためのマスキング機構も組み込んだ。
論文 参考訳(メタデータ) (2025-06-26T09:05:38Z) - CellVerse: Do Large Language Models Really Understand Cell Biology? [74.34984441715517]
我々は,4種類のシングルセルマルチオミクスデータを統合する統一言語中心の質問応答ベンチマークであるCellVerseを紹介する。
我々は,CellVerse上で160Mから671Bまでの14のオープンソースおよびクローズドソースLLMの性能を体系的に評価した。
論文 参考訳(メタデータ) (2025-05-09T06:47:23Z) - scGSDR: Harnessing Gene Semantics for Single-Cell Pharmacological Profiling [5.831554646284266]
scGSDRは、細胞状態と遺伝子シグナル伝達経路の知識に基づく2つの計算パイプラインを統合するモデルである。
scGSDRは、遺伝子セマンティクスを組み込んで予測性能を高め、解釈可能性モジュールを使用する。
モデルはシングルドラッグの予測からドラッグの組み合わせを含むシナリオまで拡張された。
論文 参考訳(メタデータ) (2025-02-02T15:43:20Z) - Single-Cell Omics Arena: A Benchmark Study for Large Language Models on Cell Type Annotation Using Single-Cell Data [13.56585855722118]
大規模言語モデル(LLM)は、テキストの膨大なコーパスを効率的に処理し、合成し、生物学的知識を自動的に抽出する能力を実証している。
本研究は、単一細胞RNAシークエンシング(scRNA-seq)データにおいて、細胞型を正確に分類し、アノテートするLLMの可能性を探るものである。
以上の結果から,LCMは微調整を必要とせずに単一セルデータの堅牢な解釈を実現できることが示された。
論文 参考訳(メタデータ) (2024-12-03T23:58:35Z) - Multi-Modal and Multi-Attribute Generation of Single Cells with CFGen [76.02070962797794]
本研究では、単一セルデータ固有の離散性を保存するフローベースの条件生成モデルであるCellFlow for Generation (CFGen)を紹介する。
CFGenは、全ゲノムマルチモーダル単一セルデータを確実に生成し、重要な生物学的データ特性の回復を改善する。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。