論文の概要: Cell2Text: Multimodal LLM for Generating Single-Cell Descriptions from RNA-Seq Data
- arxiv url: http://arxiv.org/abs/2509.24840v1
- Date: Mon, 29 Sep 2025 14:20:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.04502
- Title: Cell2Text: Multimodal LLM for Generating Single-Cell Descriptions from RNA-Seq Data
- Title(参考訳): Cell2Text:RNA-Seqデータからシングルセル記述を生成するマルチモーダルLCM
- Authors: Oussama Kharouiche, Aris Markogiannakis, Xiao Fei, Michail Chatzianastasis, Michalis Vazirgiannis,
- Abstract要約: 我々は、cRNA-seqプロファイルを構造化された自然言語記述に変換するフレームワークであるCell2Textを紹介する。
遺伝子レベルの埋め込みと事前訓練された大きな言語モデルを統合することで、Cell2Textは、細胞のアイデンティティ、組織の起源、疾患関連、経路活性をキャプチャするコヒーレントな要約を生成する。
- 参考スコア(独自算出の注目度): 17.440176654185095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Single-cell RNA sequencing has transformed biology by enabling the measurement of gene expression at cellular resolution, providing information for cell types, states, and disease contexts. Recently, single-cell foundation models have emerged as powerful tools for learning transferable representations directly from expression profiles, improving performance on classification and clustering tasks. However, these models are limited to discrete prediction heads, which collapse cellular complexity into predefined labels that fail to capture the richer, contextual explanations biologists need. We introduce Cell2Text, a multimodal generative framework that translates scRNA-seq profiles into structured natural language descriptions. By integrating gene-level embeddings from single-cell foundation models with pretrained large language models, Cell2Text generates coherent summaries that capture cellular identity, tissue origin, disease associations, and pathway activity, generalizing to unseen cells. Empirically, Cell2Text outperforms baselines on classification accuracy, demonstrates strong ontological consistency using PageRank-based similarity metrics, and achieves high semantic fidelity in text generation. These results demonstrate that coupling expression data with natural language offers both stronger predictive performance and inherently interpretable outputs, pointing to a scalable path for label-efficient characterization of unseen cells.
- Abstract(参考訳): 単細胞RNAシークエンシングは、細胞内分解能での遺伝子発現の測定を可能にし、細胞の種類、状態、疾患の文脈に関する情報を提供することによって生物学を変容させた。
近年,表現プロファイルから直接変換可能な表現を学習し,分類やクラスタリングタスクのパフォーマンスを向上させるための強力なツールとして,シングルセル基盤モデルが登場している。
しかし、これらのモデルは離散的な予測ヘッドに限られており、これは細胞の複雑さを事前に定義されたラベルに分解し、生物学者が必要とするよりリッチで文脈的な説明を捉えるのに失敗する。
我々は、cRNA-seqプロファイルを構造化された自然言語記述に変換するマルチモーダル生成フレームワークであるCell2Textを紹介する。
単一細胞基盤モデルからの遺伝子レベルの埋め込みと事前訓練された大きな言語モデルを統合することで、Cell2Textは、細胞アイデンティティ、組織の起源、疾患関連、経路活性をキャプチャーし、目に見えない細胞に一般化するコヒーレントな要約を生成する。
経験的に、Cell2Textは分類精度のベースラインより優れ、PageRankベースの類似度メトリクスを使用して強いオントロジ一貫性を示し、テキスト生成において高いセマンティック忠実性を達成する。
これらの結果は,表現データと自然言語を結合することで,より強い予測性能と本質的に解釈可能な出力を両立させることができることを示す。
関連論文リスト
- Bridging Large Language Models and Single-Cell Transcriptomics in Dissecting Selective Motor Neuron Vulnerability [1.9638866836733835]
NCBI遺伝子データベースから,遺伝子特異的なテキストアノテーションを用いて生物学的に文脈化された細胞埋め込みを生成する。
単一細胞RNAシークエンシング(scRNA-seq)データセットの各細胞について、遺伝子発現レベルで遺伝子をランク付けし、NCBI遺伝子記述を検索し、これらの記述をベクトル埋め込み表現に変換する。
論文 参考訳(メタデータ) (2025-05-12T03:39:33Z) - CellVerse: Do Large Language Models Really Understand Cell Biology? [74.34984441715517]
我々は,4種類のシングルセルマルチオミクスデータを統合する統一言語中心の質問応答ベンチマークであるCellVerseを紹介する。
我々は,CellVerse上で160Mから671Bまでの14のオープンソースおよびクローズドソースLLMの性能を体系的に評価した。
論文 参考訳(メタデータ) (2025-05-09T06:47:23Z) - Language-Enhanced Representation Learning for Single-Cell Transcriptomics [27.33236345953242]
単細胞転写学における言語強化表現学習のための新しいフレームワークである scMMGPT を提案する。
scMMGPTは、ロバストな細胞表現抽出を採用し、定量的な遺伝子発現データを保存し、革新的な2段階事前学習戦略を導入する。
論文 参考訳(メタデータ) (2025-03-12T14:26:16Z) - A Multi-Modal AI Copilot for Single-Cell Analysis with Instruction Following [32.67347401145835]
大きな言語モデルは複雑な自然言語命令の解釈に優れており、幅広いタスクを実行できる。
InstructCellは、自然言語を媒体として活用し、より直接的で柔軟な単細胞分析を行うマルチモーダルAIコラボロである。
InstructCellは、細胞型アノテーション、条件付き擬似細胞生成、薬物感受性予測を用いた単純な自然言語コマンドなどの重要なタスクを研究者に実行させる。
論文 参考訳(メタデータ) (2025-01-14T15:12:19Z) - Multi-Modal and Multi-Attribute Generation of Single Cells with CFGen [76.02070962797794]
本研究では、単一セルデータ固有の離散性を保存するフローベースの条件生成モデルであるCellFlow for Generation (CFGen)を紹介する。
CFGenは、全ゲノムマルチモーダル単一セルデータを確実に生成し、重要な生物学的データ特性の回復を改善する。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - scBiGNN: Bilevel Graph Representation Learning for Cell Type
Classification from Single-cell RNA Sequencing Data [62.87454293046843]
グラフニューラルネットワーク(GNN)は、セルタイプの自動分類に広く利用されている。
scBiGNNは2つのGNNモジュールから構成され、細胞型を識別する。
scBiGNNは、scRNA-seqデータから細胞型分類のための様々な方法より優れている。
論文 参考訳(メタデータ) (2023-12-16T03:54:26Z) - Mixed Models with Multiple Instance Learning [51.440557223100164]
一般化線形混合モデル(GLMM)とMultiple Instance Learning(MIL)を統合するフレームワークであるMixMILを紹介する。
実験結果から,MixMILは単一セルデータセットにおいて既存のMILモデルより優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-04T16:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。