論文の概要: Multimodal Language Modeling for High-Accuracy Single Cell Transcriptomics Analysis and Generation
- arxiv url: http://arxiv.org/abs/2503.09427v1
- Date: Wed, 12 Mar 2025 14:26:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 21:17:52.803692
- Title: Multimodal Language Modeling for High-Accuracy Single Cell Transcriptomics Analysis and Generation
- Title(参考訳): 高精度単細胞転写解析のためのマルチモーダル言語モデリングと生成
- Authors: Yaorui Shi, Jiaqi Yang, Sihang Li, Junfeng Fang, Xiang Wang, Zhiyuan Liu, Yang Zhang,
- Abstract要約: ScMMGPT (Single-Cell MultiModal Generative Pre-trained Transformer)
scMMGPTは最先端のセルとテキストPLMを効果的に統合する。
システムは、これまでで最大のマルチモーダルセルテキストPLMデータセットである2700万セルで、大規模な事前トレーニングを行っている。
- 参考スコア(独自算出の注目度): 28.509573988419074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models (PLMs) have revolutionized scientific research, yet their application to single-cell analysis remains limited. Text PLMs cannot process single-cell RNA sequencing data, while cell PLMs lack the ability to handle free text, restricting their use in multimodal tasks. Existing efforts to bridge these modalities often suffer from information loss or inadequate single-modal pre-training, leading to suboptimal performances. To address these challenges, we propose Single-Cell MultiModal Generative Pre-trained Transformer (scMMGPT), a unified PLM for joint cell and text modeling. scMMGPT effectively integrates the state-of-the-art cell and text PLMs, facilitating cross-modal knowledge sharing for improved performance. To bridge the text-cell modality gap, scMMGPT leverages dedicated cross-modal projectors, and undergoes extensive pre-training on 27 million cells -- the largest dataset for multimodal cell-text PLMs to date. This large-scale pre-training enables scMMGPT to excel in joint cell-text tasks, achieving an 84\% relative improvement of textual discrepancy for cell description generation, 20.5\% higher accuracy for cell type annotation, and 4\% improvement in $k$-NN accuracy for text-conditioned pseudo-cell generation, outperforming baselines.
- Abstract(参考訳): プレトレーニング言語モデル (PLM) は科学研究に革命をもたらしたが、単細胞解析への応用は限定的である。
テキストPLMはシングルセルRNAシークエンシングデータを処理できないが、セルPLMはフリーテキストを扱う能力がなく、マルチモーダルタスクでの使用を制限する。
これらのモダリティを橋渡しする既存の取り組みは、情報損失やシングルモーダル事前訓練の不十分さに悩まされ、最適以下のパフォーマンスをもたらす。
これらの課題に対処するために,共同セルとテキストモデリングのための統一PLMであるScMMGPT(Single-Cell MultiModal Generative Pre-trained Transformer)を提案する。
scMMGPTは、最先端のセルとテキストPLMを効果的に統合し、クロスモーダルな知識共有を容易にし、パフォーマンスを向上させる。
テキストセルのモダリティギャップを埋めるために、scMMGPTは専用のクロスモーダルプロジェクタを活用し、これまでで最大のマルチモーダルセルテキストPLMデータセットである2700万セルで大規模な事前トレーニングを行っている。
この大規模な事前訓練により、SCMMGPTは、細胞記述生成におけるテキスト不一致の相対的改善が84%、細胞型アノテーションの精度が20.5%、テキスト条件付き擬似セル生成における$k$-NNの精度が45%向上し、共同でセルテキストタスクを遂行することができる。
関連論文リスト
- A Cross Modal Knowledge Distillation & Data Augmentation Recipe for Improving Transcriptomics Representations through Morphological Features [2.240470404069435]
本稿では,顕微鏡画像から知識を抽出し,転写学を強化する枠組みを提案する。
本手法は,弱対データを用いてモダリティを調整・結合し,遺伝子発現表現と形態情報とを融合させる。
これらの戦略は予測力を向上し、転写学の解釈可能性を維持し、複雑な生物学的タスクに対する豊富な単項表現を可能にする。
論文 参考訳(メタデータ) (2025-05-27T15:15:34Z) - Bridging Large Language Models and Single-Cell Transcriptomics in Dissecting Selective Motor Neuron Vulnerability [1.9638866836733835]
NCBI遺伝子データベースから,遺伝子特異的なテキストアノテーションを用いて生物学的に文脈化された細胞埋め込みを生成する。
単一細胞RNAシークエンシング(scRNA-seq)データセットの各細胞について、遺伝子発現レベルで遺伝子をランク付けし、NCBI遺伝子記述を検索し、これらの記述をベクトル埋め込み表現に変換する。
論文 参考訳(メタデータ) (2025-05-12T03:39:33Z) - CellVerse: Do Large Language Models Really Understand Cell Biology? [74.34984441715517]
我々は,4種類のシングルセルマルチオミクスデータを統合する統一言語中心の質問応答ベンチマークであるCellVerseを紹介する。
我々は,CellVerse上で160Mから671Bまでの14のオープンソースおよびクローズドソースLLMの性能を体系的に評価した。
論文 参考訳(メタデータ) (2025-05-09T06:47:23Z) - MIRROR: Multi-Modal Pathological Self-Supervised Representation Learning via Modality Alignment and Retention [52.106879463828044]
病理組織学と転写学は、腫瘍学の基本的なモダリティであり、疾患の形態学的および分子的側面を包含している。
モーダルアライメントと保持を両立させる新しいマルチモーダル表現学習法であるMIRRORを提案する。
がんの亜型化と生存分析のためのTCGAコホートに関する広範囲な評価は,MIRRORの優れた性能を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-03-01T07:02:30Z) - A Multi-Modal AI Copilot for Single-Cell Analysis with Instruction Following [32.67347401145835]
大きな言語モデルは複雑な自然言語命令の解釈に優れており、幅広いタスクを実行できる。
InstructCellは、自然言語を媒体として活用し、より直接的で柔軟な単細胞分析を行うマルチモーダルAIコラボロである。
InstructCellは、細胞型アノテーション、条件付き擬似細胞生成、薬物感受性予測を用いた単純な自然言語コマンドなどの重要なタスクを研究者に実行させる。
論文 参考訳(メタデータ) (2025-01-14T15:12:19Z) - scReader: Prompting Large Language Models to Interpret scRNA-seq Data [12.767105992391555]
本稿では,大規模言語モデルの一般的な知識機能と,単一セルオミクスデータ解釈のためのドメイン固有表現モデルを統合する,革新的なハイブリッドアプローチを提案する。
単細胞遺伝子レベルでの遺伝子発現データをプロンプトで入力することにより、様々な種および細胞タイプにわたる遺伝子発現の差分レベルに基づいて、細胞表現を効果的にモデル化する。
論文 参考訳(メタデータ) (2024-12-24T04:28:42Z) - Single-Cell Omics Arena: A Benchmark Study for Large Language Models on Cell Type Annotation Using Single-Cell Data [13.56585855722118]
大規模言語モデル(LLM)は、テキストの膨大なコーパスを効率的に処理し、合成し、生物学的知識を自動的に抽出する能力を実証している。
本研究は、単一細胞RNAシークエンシング(scRNA-seq)データにおいて、細胞型を正確に分類し、アノテートするLLMの可能性を探るものである。
以上の結果から,LCMは微調整を必要とせずに単一セルデータの堅牢な解釈を実現できることが示された。
論文 参考訳(メタデータ) (2024-12-03T23:58:35Z) - Cell as Point: One-Stage Framework for Efficient Cell Tracking [54.19259129722988]
本稿では,セルをポイントとして扱うことで細胞追跡を再現する新しいエンド・ツー・エンドのワンステージフレームワークを提案する。
従来の方法とは異なり、CAPは明示的な検出やセグメンテーションの必要性を排除し、代わりに1段階の配列の細胞を共同で追跡する。
CAPは有望な細胞追跡性能を示し、既存の方法の10倍から55倍効率が高い。
論文 参考訳(メタデータ) (2024-11-22T10:16:35Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation [51.20656279478878]
MATRIXは、様々なテキストベースのシナリオを自動的に生成するマルチエージェントシミュレータである。
制御可能でリアルなデータ合成のためのMATRIX-Genを紹介する。
AlpacaEval 2 と Arena-Hard のベンチマークでは、Llama-3-8B-Base が、MATRIX-Gen によって合成されたデータセット上で、たった 20K の命令応答ペアで、Meta の Llama-3-8B-Instruct モデルより優れています。
論文 参考訳(メタデータ) (2024-10-18T08:01:39Z) - scFusionTTT: Single-cell transcriptomics and proteomics fusion with Test-Time Training layers [14.254553622632594]
scFusionはTTTベースのマスク付きオートエンコーダを用いたシングルセルマルチモーダルオミクスフュージョンの新しい手法である。
我々はヒトゲノム中の遺伝子とタンパク質の秩序情報をTTT層と組み合わせ、マルチモーダルオミクスを融合させ、単調オミクス解析を強化する。
論文 参考訳(メタデータ) (2024-10-17T06:29:29Z) - Multi-Modal and Multi-Attribute Generation of Single Cells with CFGen [76.02070962797794]
本研究では、単一セルデータ固有の離散性を保存するフローベースの条件生成モデルであるCellFlow for Generation (CFGen)を紹介する。
CFGenは、全ゲノムマルチモーダル単一セルデータを確実に生成し、重要な生物学的データ特性の回復を改善する。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - LangCell: Language-Cell Pre-training for Cell Identity Understanding [3.6518971609937068]
我々は,事前学習期間中に,単一セルデータと自然言語の統一表現であるLangCellを紹介する。
以上の結果から,ゼロショットセル識別理解シナリオにおいて効果的に機能できる単一セルPLMはLangCellのみであることが示唆された。
論文 参考訳(メタデータ) (2024-05-09T10:04:05Z) - Scalable Amortized GPLVMs for Single Cell Transcriptomics Data [9.010523724015398]
大規模単細胞RNA-seqデータの解析には次元化が不可欠である。
改良されたモデル、償却変分モデル(BGPLVM)を導入する。
BGPLVMは、特殊なエンコーダ、カーネル、そして可能性設計を備えたシングルセルRNA-seq向けに調整されている。
論文 参考訳(メタデータ) (2024-05-06T21:54:38Z) - ChatCell: Facilitating Single-Cell Analysis with Natural Language [40.4429032376233]
ChatCellは、自然言語による単一セル分析を容易にするツールである。
ChatCellは単細胞生物学の深い専門知識を得た。
プロジェクトのホームページはhttps://zjunlp.io/project/ChatCell.orgで公開されています。
論文 参考訳(メタデータ) (2024-02-13T09:06:14Z) - Single-Cell Deep Clustering Method Assisted by Exogenous Gene
Information: A Novel Approach to Identifying Cell Types [50.55583697209676]
我々は,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。
クラスタリング過程において,両情報の集合を統合し,細胞と遺伝子の特徴を再構成し,識別的表現を生成する。
本研究は、細胞の特徴と分布に関する知見を高め、疾患の早期診断と治療の基礎となる。
論文 参考訳(メタデータ) (2023-11-28T09:14:55Z) - Mixed Models with Multiple Instance Learning [51.440557223100164]
一般化線形混合モデル(GLMM)とMultiple Instance Learning(MIL)を統合するフレームワークであるMixMILを紹介する。
実験結果から,MixMILは単一セルデータセットにおいて既存のMILモデルより優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-04T16:42:42Z) - RigLSTM: Recurrent Independent Grid LSTM for Generalizable Sequence
Learning [75.61681328968714]
本稿では,対象タスクの基盤となるモジュール構造を利用するために,リカレントな独立したGrid LSTM(RigLSTM)を提案する。
本モデルでは, セル選択, 入力特徴選択, 隠れ状態選択, ソフト状態更新を採用し, より優れた一般化を実現する。
論文 参考訳(メタデータ) (2023-11-03T07:40:06Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。