論文の概要: Contrastive Learning Enhances Language Model Based Cell Embeddings for Low-Sample Single Cell Transcriptomics
- arxiv url: http://arxiv.org/abs/2509.23543v1
- Date: Sun, 28 Sep 2025 00:45:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.281862
- Title: Contrastive Learning Enhances Language Model Based Cell Embeddings for Low-Sample Single Cell Transcriptomics
- Title(参考訳): コントラスト学習は低サンプル単細胞トランスクリプトークスのための言語モデルに基づく細胞埋め込みを促進する
- Authors: Luxuan Zhang, Douglas Jiang, Qinglong Wang, Haoqi Sun, Feng Tian,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語処理や生成、コンピュータビジョン、マルチモーダル学習といった分野にまたがるリッチな表現を生成する能力を示している。
本稿では、単一セルRNAシークエンシング(scRNA-seq)とLLMを統合し、知識インフォームド遺伝子埋め込みを導出する計算フレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.7907528918903797
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have shown strong ability in generating rich representations across domains such as natural language processing and generation, computer vision, and multimodal learning. However, their application in biomedical data analysis remains nascent. Single-cell transcriptomic profiling is essential for dissecting cell subtype diversity in development and disease, but rare subtypes pose challenges for scaling laws. We present a computational framework that integrates single-cell RNA sequencing (scRNA-seq) with LLMs to derive knowledge-informed gene embeddings. Highly expressed genes for each cell are mapped to NCBI Gene descriptions and embedded using models such as text-embedding-ada-002, BioBERT, and SciBERT. Applied to retinal ganglion cells (RGCs), which differ in vulnerability to glaucoma-related neurodegeneration, this strategy improves subtype classification, highlights biologically significant features, and reveals pathways underlying selective neuronal vulnerability. More broadly, it illustrates how LLM-derived embeddings can augment biological analysis under data-limited conditions and lay the groundwork for future foundation models in single-cell biology.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語処理や生成、コンピュータビジョン、マルチモーダル学習など、ドメイン間でリッチな表現を生成する強力な能力を示している。
しかし、そのバイオメディカルデータ解析への応用はいまだに始まったばかりである。
単一細胞トランスクリプトームプロファイリングは、発生および疾患における細胞サブタイプ多様性の分離に必須であるが、希少なサブタイプは、スケーリング法則に挑戦する。
本稿では、単一セルRNAシークエンシング(scRNA-seq)とLLMを統合し、知識インフォームド遺伝子埋め込みを導出する計算フレームワークを提案する。
各細胞の高発現遺伝子はNCBI遺伝子記述にマッピングされ、text-embedding-ada-002、BioBERT、SciBERTなどのモデルを用いて組込まれている。
緑内障関連神経変性の脆弱性が異なる網膜神経節細胞(RGC)に対して、この戦略はサブタイプ分類を改善し、生物学的に重要な特徴を強調し、選択的神経細胞の脆弱性の根底にある経路を明らかにする。
より広義には、LSM由来の埋め込みが、データ制限条件下での生物学的分析を拡大し、単一細胞生物学における将来の基礎モデルの基礎となることを説明している。
関連論文リスト
- HEIST: A Graph Foundation Model for Spatial Transcriptomics and Proteomics Data [25.915980581662023]
本稿では,空間転写学とトランスフォーマーのための階層グラフ基盤モデルであるHEISTを紹介する。
HEISTは、124の組織から15の臓器の22.3M細胞に、空間的に認識されるコントラストとマスクされた自己エンコーディングの目的を用いて事前訓練されている。
論文 参考訳(メタデータ) (2025-06-11T12:29:01Z) - Bridging Large Language Models and Single-Cell Transcriptomics in Dissecting Selective Motor Neuron Vulnerability [1.9638866836733835]
NCBI遺伝子データベースから,遺伝子特異的なテキストアノテーションを用いて生物学的に文脈化された細胞埋め込みを生成する。
単一細胞RNAシークエンシング(scRNA-seq)データセットの各細胞について、遺伝子発現レベルで遺伝子をランク付けし、NCBI遺伝子記述を検索し、これらの記述をベクトル埋め込み表現に変換する。
論文 参考訳(メタデータ) (2025-05-12T03:39:33Z) - CellVerse: Do Large Language Models Really Understand Cell Biology? [74.34984441715517]
我々は,4種類のシングルセルマルチオミクスデータを統合する統一言語中心の質問応答ベンチマークであるCellVerseを紹介する。
我々は,CellVerse上で160Mから671Bまでの14のオープンソースおよびクローズドソースLLMの性能を体系的に評価した。
論文 参考訳(メタデータ) (2025-05-09T06:47:23Z) - Language-Enhanced Representation Learning for Single-Cell Transcriptomics [27.33236345953242]
単細胞転写学における言語強化表現学習のための新しいフレームワークである scMMGPT を提案する。
scMMGPTは、ロバストな細胞表現抽出を採用し、定量的な遺伝子発現データを保存し、革新的な2段階事前学習戦略を導入する。
論文 参考訳(メタデータ) (2025-03-12T14:26:16Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - scReader: Prompting Large Language Models to Interpret scRNA-seq Data [12.767105992391555]
本稿では,大規模言語モデルの一般的な知識機能と,単一セルオミクスデータ解釈のためのドメイン固有表現モデルを統合する,革新的なハイブリッドアプローチを提案する。
単細胞遺伝子レベルでの遺伝子発現データをプロンプトで入力することにより、様々な種および細胞タイプにわたる遺伝子発現の差分レベルに基づいて、細胞表現を効果的にモデル化する。
論文 参考訳(メタデータ) (2024-12-24T04:28:42Z) - Multi-Modal and Multi-Attribute Generation of Single Cells with CFGen [76.02070962797794]
本研究では、単一セルデータ固有の離散性を保存するフローベースの条件生成モデルであるCellFlow for Generation (CFGen)を紹介する。
CFGenは、全ゲノムマルチモーダル単一セルデータを確実に生成し、重要な生物学的データ特性の回復を改善する。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - MMIL: A novel algorithm for disease associated cell type discovery [58.044870442206914]
単一細胞データセットは、しばしば個々の細胞ラベルを欠いているため、病気に関連する細胞を特定することは困難である。
セルレベルの分類器の訓練と校正を可能にする予測手法であるMixture Modeling for Multiple Learning Instance (MMIL)を導入する。
論文 参考訳(メタデータ) (2024-06-12T15:22:56Z) - Mixed Models with Multiple Instance Learning [51.440557223100164]
一般化線形混合モデル(GLMM)とMultiple Instance Learning(MIL)を統合するフレームワークであるMixMILを紹介する。
実験結果から,MixMILは単一セルデータセットにおいて既存のMILモデルより優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-04T16:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。