論文の概要: Language-Enhanced Representation Learning for Single-Cell Transcriptomics
- arxiv url: http://arxiv.org/abs/2503.09427v2
- Date: Mon, 19 May 2025 08:02:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.51546
- Title: Language-Enhanced Representation Learning for Single-Cell Transcriptomics
- Title(参考訳): 単セルトランスクリプトークスのための言語強化表現学習
- Authors: Yaorui Shi, Jiaqi Yang, Changhao Nai, Sihang Li, Junfeng Fang, Xiang Wang, Zhiyuan Liu, Yang Zhang,
- Abstract要約: 単細胞転写学における言語強化表現学習のための新しいフレームワークである scMMGPT を提案する。
scMMGPTは、ロバストな細胞表現抽出を採用し、定量的な遺伝子発現データを保存し、革新的な2段階事前学習戦略を導入する。
- 参考スコア(独自算出の注目度): 27.33236345953242
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Single-cell RNA sequencing (scRNA-seq) offers detailed insights into cellular heterogeneity. Recent advancements leverage single-cell large language models (scLLMs) for effective representation learning. These models focus exclusively on transcriptomic data, neglecting complementary biological knowledge from textual descriptions. To overcome this limitation, we propose scMMGPT, a novel multimodal framework designed for language-enhanced representation learning in single-cell transcriptomics. Unlike existing methods, scMMGPT employs robust cell representation extraction, preserving quantitative gene expression data, and introduces an innovative two-stage pre-training strategy combining discriminative precision with generative flexibility. Extensive experiments demonstrate that scMMGPT significantly outperforms unimodal and multimodal baselines across key downstream tasks, including cell annotation and clustering, and exhibits superior generalization in out-of-distribution scenarios.
- Abstract(参考訳): 単細胞RNAシークエンシング(scRNA-seq)は、細胞多様性に関する詳細な知見を提供する。
最近の進歩は、効率的な表現学習にシングルセル大言語モデル(scLLMs)を活用している。
これらのモデルは、テキスト記述から相補的な生物学的知識を無視して、転写データにのみ焦点をあてる。
この制限を克服するために,単細胞転写学における言語強化表現学習のための新しいマルチモーダルフレームワークである scMMGPT を提案する。
既存の方法とは異なり、 scMMGPTは、堅牢な細胞表現抽出を採用し、定量的な遺伝子発現データを保存し、識別精度と生成柔軟性を組み合わせた革新的な2段階事前学習戦略を導入している。
大規模な実験により、SCMMGPTは、セルアノテーションやクラスタリングを含む主要な下流タスクにおいて、単調およびマルチモーダルのベースラインを著しく上回り、アウト・オブ・ディストリビューションのシナリオにおいて優れた一般化を示すことが示された。
関連論文リスト
- A Multi-Modal AI Copilot for Single-Cell Analysis with Instruction Following [32.67347401145835]
大きな言語モデルは複雑な自然言語命令の解釈に優れており、幅広いタスクを実行できる。
InstructCellは、自然言語を媒体として活用し、より直接的で柔軟な単細胞分析を行うマルチモーダルAIコラボロである。
InstructCellは、細胞型アノテーション、条件付き擬似細胞生成、薬物感受性予測を用いた単純な自然言語コマンドなどの重要なタスクを研究者に実行させる。
論文 参考訳(メタデータ) (2025-01-14T15:12:19Z) - Single-Cell Omics Arena: A Benchmark Study for Large Language Models on Cell Type Annotation Using Single-Cell Data [13.56585855722118]
大規模言語モデル(LLM)は、テキストの膨大なコーパスを効率的に処理し、合成し、生物学的知識を自動的に抽出する能力を実証している。
本研究は、単一細胞RNAシークエンシング(scRNA-seq)データにおいて、細胞型を正確に分類し、アノテートするLLMの可能性を探るものである。
以上の結果から,LCMは微調整を必要とせずに単一セルデータの堅牢な解釈を実現できることが示された。
論文 参考訳(メタデータ) (2024-12-03T23:58:35Z) - Cell as Point: One-Stage Framework for Efficient Cell Tracking [54.19259129722988]
本稿では,セルをポイントとして扱うことで細胞追跡を再現する新しいエンド・ツー・エンドのワンステージフレームワークを提案する。
従来の方法とは異なり、CAPは明示的な検出やセグメンテーションの必要性を排除し、代わりに1段階の配列の細胞を共同で追跡する。
CAPは有望な細胞追跡性能を示し、既存の方法の10倍から55倍効率が高い。
論文 参考訳(メタデータ) (2024-11-22T10:16:35Z) - Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation [51.20656279478878]
MATRIXは、様々なテキストベースのシナリオを自動的に生成するマルチエージェントシミュレータである。
制御可能でリアルなデータ合成のためのMATRIX-Genを紹介する。
AlpacaEval 2 と Arena-Hard のベンチマークでは、Llama-3-8B-Base が、MATRIX-Gen によって合成されたデータセット上で、たった 20K の命令応答ペアで、Meta の Llama-3-8B-Instruct モデルより優れています。
論文 参考訳(メタデータ) (2024-10-18T08:01:39Z) - scFusionTTT: Single-cell transcriptomics and proteomics fusion with Test-Time Training layers [14.254553622632594]
scFusionはTTTベースのマスク付きオートエンコーダを用いたシングルセルマルチモーダルオミクスフュージョンの新しい手法である。
我々はヒトゲノム中の遺伝子とタンパク質の秩序情報をTTT層と組み合わせ、マルチモーダルオミクスを融合させ、単調オミクス解析を強化する。
論文 参考訳(メタデータ) (2024-10-17T06:29:29Z) - Multi-Modal and Multi-Attribute Generation of Single Cells with CFGen [76.02070962797794]
本研究では、単一セルデータ固有の離散性を保存するフローベースの条件生成モデルであるCellFlow for Generation (CFGen)を紹介する。
CFGenは、全ゲノムマルチモーダル単一セルデータを確実に生成し、重要な生物学的データ特性の回復を改善する。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - LangCell: Language-Cell Pre-training for Cell Identity Understanding [3.6518971609937068]
我々は,事前学習期間中に,単一セルデータと自然言語の統一表現であるLangCellを紹介する。
以上の結果から,ゼロショットセル識別理解シナリオにおいて効果的に機能できる単一セルPLMはLangCellのみであることが示唆された。
論文 参考訳(メタデータ) (2024-05-09T10:04:05Z) - ChatCell: Facilitating Single-Cell Analysis with Natural Language [40.4429032376233]
ChatCellは、自然言語による単一セル分析を容易にするツールである。
ChatCellは単細胞生物学の深い専門知識を得た。
プロジェクトのホームページはhttps://zjunlp.io/project/ChatCell.orgで公開されています。
論文 参考訳(メタデータ) (2024-02-13T09:06:14Z) - Mixed Models with Multiple Instance Learning [51.440557223100164]
一般化線形混合モデル(GLMM)とMultiple Instance Learning(MIL)を統合するフレームワークであるMixMILを紹介する。
実験結果から,MixMILは単一セルデータセットにおいて既存のMILモデルより優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-04T16:42:42Z) - RigLSTM: Recurrent Independent Grid LSTM for Generalizable Sequence
Learning [75.61681328968714]
本稿では,対象タスクの基盤となるモジュール構造を利用するために,リカレントな独立したGrid LSTM(RigLSTM)を提案する。
本モデルでは, セル選択, 入力特徴選択, 隠れ状態選択, ソフト状態更新を採用し, より優れた一般化を実現する。
論文 参考訳(メタデータ) (2023-11-03T07:40:06Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。