論文の概要: Multimodal Language Modeling for High-Accuracy Single Cell Transcriptomics Analysis and Generation
- arxiv url: http://arxiv.org/abs/2503.09427v1
- Date: Wed, 12 Mar 2025 14:26:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:39:55.764975
- Title: Multimodal Language Modeling for High-Accuracy Single Cell Transcriptomics Analysis and Generation
- Title(参考訳): 高精度単細胞転写解析のためのマルチモーダル言語モデリングと生成
- Authors: Yaorui Shi, Jiaqi Yang, Sihang Li, Junfeng Fang, Xiang Wang, Zhiyuan Liu, Yang Zhang,
- Abstract要約: ScMMGPT (Single-Cell MultiModal Generative Pre-trained Transformer)
scMMGPTは最先端のセルとテキストPLMを効果的に統合する。
システムは、これまでで最大のマルチモーダルセルテキストPLMデータセットである2700万セルで、大規模な事前トレーニングを行っている。
- 参考スコア(独自算出の注目度): 28.509573988419074
- License:
- Abstract: Pre-trained language models (PLMs) have revolutionized scientific research, yet their application to single-cell analysis remains limited. Text PLMs cannot process single-cell RNA sequencing data, while cell PLMs lack the ability to handle free text, restricting their use in multimodal tasks. Existing efforts to bridge these modalities often suffer from information loss or inadequate single-modal pre-training, leading to suboptimal performances. To address these challenges, we propose Single-Cell MultiModal Generative Pre-trained Transformer (scMMGPT), a unified PLM for joint cell and text modeling. scMMGPT effectively integrates the state-of-the-art cell and text PLMs, facilitating cross-modal knowledge sharing for improved performance. To bridge the text-cell modality gap, scMMGPT leverages dedicated cross-modal projectors, and undergoes extensive pre-training on 27 million cells -- the largest dataset for multimodal cell-text PLMs to date. This large-scale pre-training enables scMMGPT to excel in joint cell-text tasks, achieving an 84\% relative improvement of textual discrepancy for cell description generation, 20.5\% higher accuracy for cell type annotation, and 4\% improvement in $k$-NN accuracy for text-conditioned pseudo-cell generation, outperforming baselines.
- Abstract(参考訳): プレトレーニング言語モデル (PLM) は科学研究に革命をもたらしたが、単細胞解析への応用は限定的である。
テキストPLMはシングルセルRNAシークエンシングデータを処理できないが、セルPLMはフリーテキストを扱う能力がなく、マルチモーダルタスクでの使用を制限する。
これらのモダリティを橋渡しする既存の取り組みは、情報損失やシングルモーダル事前訓練の不十分さに悩まされ、最適以下のパフォーマンスをもたらす。
これらの課題に対処するために,共同セルとテキストモデリングのための統一PLMであるScMMGPT(Single-Cell MultiModal Generative Pre-trained Transformer)を提案する。
scMMGPTは、最先端のセルとテキストPLMを効果的に統合し、クロスモーダルな知識共有を容易にし、パフォーマンスを向上させる。
テキストセルのモダリティギャップを埋めるために、scMMGPTは専用のクロスモーダルプロジェクタを活用し、これまでで最大のマルチモーダルセルテキストPLMデータセットである2700万セルで大規模な事前トレーニングを行っている。
この大規模な事前訓練により、SCMMGPTは、細胞記述生成におけるテキスト不一致の相対的改善が84%、細胞型アノテーションの精度が20.5%、テキスト条件付き擬似セル生成における$k$-NNの精度が45%向上し、共同でセルテキストタスクを遂行することができる。
関連論文リスト
- A Multi-Modal AI Copilot for Single-Cell Analysis with Instruction Following [32.67347401145835]
大きな言語モデルは複雑な自然言語命令の解釈に優れており、幅広いタスクを実行できる。
InstructCellは、自然言語を媒体として活用し、より直接的で柔軟な単細胞分析を行うマルチモーダルAIコラボロである。
InstructCellは、細胞型アノテーション、条件付き擬似細胞生成、薬物感受性予測を用いた単純な自然言語コマンドなどの重要なタスクを研究者に実行させる。
論文 参考訳(メタデータ) (2025-01-14T15:12:19Z) - Single-Cell Omics Arena: A Benchmark Study for Large Language Models on Cell Type Annotation Using Single-Cell Data [13.56585855722118]
大規模言語モデル(LLM)は、テキストの膨大なコーパスを効率的に処理し、合成し、生物学的知識を自動的に抽出する能力を実証している。
本研究は、単一細胞RNAシークエンシング(scRNA-seq)データにおいて、細胞型を正確に分類し、アノテートするLLMの可能性を探るものである。
以上の結果から,LCMは微調整を必要とせずに単一セルデータの堅牢な解釈を実現できることが示された。
論文 参考訳(メタデータ) (2024-12-03T23:58:35Z) - Cell as Point: One-Stage Framework for Efficient Cell Tracking [54.19259129722988]
本稿では,セルをポイントとして扱うことで細胞追跡を再現する新しいエンド・ツー・エンドのワンステージフレームワークを提案する。
従来の方法とは異なり、CAPは明示的な検出やセグメンテーションの必要性を排除し、代わりに1段階の配列の細胞を共同で追跡する。
CAPは有望な細胞追跡性能を示し、既存の方法の10倍から55倍効率が高い。
論文 参考訳(メタデータ) (2024-11-22T10:16:35Z) - Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation [51.20656279478878]
MATRIXは、様々なテキストベースのシナリオを自動的に生成するマルチエージェントシミュレータである。
制御可能でリアルなデータ合成のためのMATRIX-Genを紹介する。
AlpacaEval 2 と Arena-Hard のベンチマークでは、Llama-3-8B-Base が、MATRIX-Gen によって合成されたデータセット上で、たった 20K の命令応答ペアで、Meta の Llama-3-8B-Instruct モデルより優れています。
論文 参考訳(メタデータ) (2024-10-18T08:01:39Z) - scFusionTTT: Single-cell transcriptomics and proteomics fusion with Test-Time Training layers [14.254553622632594]
scFusionはTTTベースのマスク付きオートエンコーダを用いたシングルセルマルチモーダルオミクスフュージョンの新しい手法である。
我々はヒトゲノム中の遺伝子とタンパク質の秩序情報をTTT層と組み合わせ、マルチモーダルオミクスを融合させ、単調オミクス解析を強化する。
論文 参考訳(メタデータ) (2024-10-17T06:29:29Z) - LangCell: Language-Cell Pre-training for Cell Identity Understanding [3.6518971609937068]
我々は,事前学習期間中に,単一セルデータと自然言語の統一表現であるLangCellを紹介する。
以上の結果から,ゼロショットセル識別理解シナリオにおいて効果的に機能できる単一セルPLMはLangCellのみであることが示唆された。
論文 参考訳(メタデータ) (2024-05-09T10:04:05Z) - ChatCell: Facilitating Single-Cell Analysis with Natural Language [40.4429032376233]
ChatCellは、自然言語による単一セル分析を容易にするツールである。
ChatCellは単細胞生物学の深い専門知識を得た。
プロジェクトのホームページはhttps://zjunlp.io/project/ChatCell.orgで公開されています。
論文 参考訳(メタデータ) (2024-02-13T09:06:14Z) - Mixed Models with Multiple Instance Learning [51.440557223100164]
一般化線形混合モデル(GLMM)とMultiple Instance Learning(MIL)を統合するフレームワークであるMixMILを紹介する。
実験結果から,MixMILは単一セルデータセットにおいて既存のMILモデルより優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-04T16:42:42Z) - RigLSTM: Recurrent Independent Grid LSTM for Generalizable Sequence
Learning [75.61681328968714]
本稿では,対象タスクの基盤となるモジュール構造を利用するために,リカレントな独立したGrid LSTM(RigLSTM)を提案する。
本モデルでは, セル選択, 入力特徴選択, 隠れ状態選択, ソフト状態更新を採用し, より優れた一般化を実現する。
論文 参考訳(メタデータ) (2023-11-03T07:40:06Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。