論文の概要: scPilot: Large Language Model Reasoning Toward Automated Single-Cell Analysis and Discovery
- arxiv url: http://arxiv.org/abs/2602.11609v1
- Date: Thu, 12 Feb 2026 06:04:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.661248
- Title: scPilot: Large Language Model Reasoning Toward Automated Single-Cell Analysis and Discovery
- Title(参考訳): scPilot: 単一セルの自動解析と発見に向けた大規模言語モデル推論
- Authors: Yiming Gao, Zhen Wang, Jefferson Chen, Mark Antkowiak, Mengzhou Hu, JungHo Kong, Dexter Pratt, Jieyuan Liu, Enze Ma, Zhiting Hu, Eric P. Xing,
- Abstract要約: scPilotは、オミクスネイティブ推論を実践する最初の体系的なフレームワークである。
コアシングルセル解析をステップバイステップ推論問題に変換する。
o1を用いた実験では、反復的なオミクスネイティブ推論が平均精度を11%上げることが示された。
- 参考スコア(独自算出の注目度): 35.61445738447131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present scPilot, the first systematic framework to practice omics-native reasoning: a large language model (LLM) converses in natural language while directly inspecting single-cell RNA-seq data and on-demand bioinformatics tools. scPilot converts core single-cell analyses, i.e., cell-type annotation, developmental-trajectory reconstruction, and transcription-factor targeting, into step-by-step reasoning problems that the model must solve, justify, and, when needed, revise with new evidence. To measure progress, we release scBench, a suite of 9 expertly curated datasets and graders that faithfully evaluate the omics-native reasoning capability of scPilot w.r.t various LLMs. Experiments with o1 show that iterative omics-native reasoning lifts average accuracy by 11% for cell-type annotation and Gemini-2.5-Pro cuts trajectory graph-edit distance by 30% versus one-shot prompting, while generating transparent reasoning traces explain marker gene ambiguity and regulatory logic. By grounding LLMs in raw omics data, scPilot enables auditable, interpretable, and diagnostically informative single-cell analyses. Code, data, and package are available at https://github.com/maitrix-org/scPilot
- Abstract(参考訳): 大規模言語モデル(LLM)は、単一セルRNA-seqデータとオンデマンドバイオインフォマティクスツールを直接検査しながら、自然言語で会話する。
scPilotは、細胞型アノテーション、発達軌道再構成、転写因子ターゲティングなどのコアシングルセル解析を、モデルが解決し、正当化し、必要に応じて新しい証拠で修正しなければならないステップバイステップの推論問題に変換する。
scPilot w.r.t various LLMのオミクスネイティブ推論能力を忠実に評価する9つの専門的にキュレートされたデータセットとグレーダからなるスイートである scBench をリリースする。
o1を用いた実験では、反復オミクスネイティブ推論は細胞型アノテーションに対して平均11%の精度を持ち、Gemini-2.5-Proは1ショットプロンプトよりも30%のグラフ編集距離を削減し、透明な推論トレースはマーカー遺伝子の曖昧さと制御ロジックを説明する。
生のオミクスデータにLLMを接地することで、 scPilot は監査可能、解釈可能、診断可能な単一セル分析を可能にする。
コード、データ、パッケージはhttps://github.com/maitrix-org/scPilotで入手できる。
関連論文リスト
- scBench: Evaluating AI Agents on Single-Cell RNA-seq Analysis [6.518767416778027]
scBenchは、scRNA-seqデータセットに由来する394の検証可能な問題のベンチマークである。
8つのフロンティアモデルのベンチマークデータによると、精度は29~53%で、強力なモデルタスクとモデルプラットフォーム相互作用がある。
論文 参考訳(メタデータ) (2026-02-09T03:20:31Z) - GRIT: Graph-Regularized Logit Refinement for Zero-shot Cell Type Annotation [15.465706196179676]
細胞型アノテーションは単細胞RNAシークエンシング(scRNA-seq)データの解析における基本的なステップである。
CLIPスタイルモデルの最近の進歩は、細胞型アノテーションの自動化への有望な道を提供する。
本稿では,グラフ正規化最適化フレームワークを用いて,LangCellが生成するゼロショットロジットを改良することを提案する。
論文 参考訳(メタデータ) (2025-08-06T07:09:46Z) - Cell-o1: Training LLMs to Solve Single-Cell Reasoning Puzzles with Reinforcement Learning [44.91329557101423]
我々はCellPuzzlesタスクを導入し、その目的はセルのバッチにユニークなセルタイプを割り当てることである。
このベンチマークは、様々な組織、疾患、ドナーの状態にまたがっており、ラベルの独特性を保証するために、バッチレベルの細胞コンテキストをまたいで推論する必要がある。
蒸留液の微調整を施した7B LLMのCell-o1を提案する。
論文 参考訳(メタデータ) (2025-06-03T14:16:53Z) - CellVerse: Do Large Language Models Really Understand Cell Biology? [74.34984441715517]
我々は,4種類のシングルセルマルチオミクスデータを統合する統一言語中心の質問応答ベンチマークであるCellVerseを紹介する。
我々は,CellVerse上で160Mから671Bまでの14のオープンソースおよびクローズドソースLLMの性能を体系的に評価した。
論文 参考訳(メタデータ) (2025-05-09T06:47:23Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability
Curvature [143.5381108333212]
大規模な言語モデルからサンプリングされたテキストは、モデルのログ確率関数の負の曲率領域を占有する傾向にあることを示す。
次に、与えられたLLMから通路が生成されるかどうかを判断するための新しい曲率ベースの基準を定義する。
我々は、モデルサンプル検出のための既存のゼロショット法よりもディテクターGPTの方が識別性が高いことを発見した。
論文 参考訳(メタデータ) (2023-01-26T18:44:06Z) - A biology-driven deep generative model for cell-type annotation in
cytometry [0.0]
Scyanはシングルセルサイトメトリーネットワークで,事前知識のみを用いて細胞タイプを自動的にアノテートする。
Scyanは、複数の公開データセット上の関連する最先端モデルよりも高速で解釈可能である。
さらに、Scyanはバッチ効果除去、デバーコーディング、人口発見など、いくつかの補完的なタスクを克服している。
論文 参考訳(メタデータ) (2022-08-11T10:50:44Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。