論文の概要: Open World Knowledge Aided Single-Cell Foundation Model with Robust Cross-Modal Cell-Language Pre-training
- arxiv url: http://arxiv.org/abs/2601.05648v1
- Date: Fri, 09 Jan 2026 09:10:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.92472
- Title: Open World Knowledge Aided Single-Cell Foundation Model with Robust Cross-Modal Cell-Language Pre-training
- Title(参考訳): ロバストなクロスモーダルセルランゲージ事前学習を用いたオープンワールド知識支援シングルセル基礎モデル
- Authors: Haoran Wang, Xuanyi Zhang, Shuangsang Fang, Longke Ran, Ziqing Deng, Yong Zhang, Yuxiang Li, Shaoshuai Li,
- Abstract要約: オープンワールド言語知識支援ロバスト単一セル基盤モデル(OKR-CELL)を提案する。
クロスモーダルなCell-Language事前トレーニングフレームワークをベースに構築されている。
OKR-CELLは、6つの評価タスクにわたる最先端の結果を得る。
- 参考スコア(独自算出の注目度): 7.812507078660317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in single-cell multi-omics, particularly RNA-seq, have provided profound insights into cellular heterogeneity and gene regulation. While pre-trained language model (PLM) paradigm based single-cell foundation models have shown promise, they remain constrained by insufficient integration of in-depth individual profiles and neglecting the influence of noise within multi-modal data. To address both issues, we propose an Open-world Language Knowledge-Aided Robust Single-Cell Foundation Model (OKR-CELL). It is built based on a cross-modal Cell-Language pre-training framework, which comprises two key innovations: (1) leveraging Large Language Models (LLMs) based workflow with retrieval-augmented generation (RAG) enriches cell textual descriptions using open-world knowledge; (2) devising a Cross-modal Robust Alignment (CRA) objective that incorporates sample reliability assessment, curriculum learning, and coupled momentum contrastive learning to strengthen the model's resistance to noisy data. After pretraining on 32M cell-text pairs, OKR-CELL obtains cutting-edge results across 6 evaluation tasks. Beyond standard benchmarks such as cell clustering, cell-type annotation, batch-effect correction, and few-shot annotation, the model also demonstrates superior performance in broader multi-modal applications, including zero-shot cell-type annotation and bidirectional cell-text retrieval.
- Abstract(参考訳): 単細胞多組織、特にRNA-seqの最近の進歩は、細胞多様性と遺伝子制御に深い洞察を与えている。
プレトレーニング言語モデル(PLM)のパラダイムに基づく単一セル基盤モデルは、将来性を示しているが、詳細な個々のプロファイルの統合が不十分であり、マルチモーダルデータにおけるノイズの影響を無視することによる制約が残っている。
両問題に対処するため,オープンワールド言語支援ロバスト単セル基礎モデル(OKR-CELL)を提案する。
1)大規模言語モデル(LLM)ベースのワークフローと検索強化世代(RAG)を併用し,オープンワールド知識を用いたセルテキスト記述を充実させる,2)サンプル信頼性評価,カリキュラム学習,結合型モーメントコントラスト学習を取り入れたクロスモーダルロバストアライメント(CRA)の目標を考案し,ノイズデータに対するモデル抵抗を強化する。
32Mセルテキストペアを事前トレーニングした後、OKR-CELLは6つの評価タスクで最先端の結果を得る。
セルクラスタリング、セル型アノテーション、バッチ効果補正、少数ショットアノテーションといった標準的なベンチマーク以外にも、ゼロショットセル型アノテーションや双方向セルテキスト検索など、より広範なマルチモーダルアプリケーションにおいて優れたパフォーマンスを示す。
関連論文リスト
- Cell-o1: Training LLMs to Solve Single-Cell Reasoning Puzzles with Reinforcement Learning [44.91329557101423]
我々はCellPuzzlesタスクを導入し、その目的はセルのバッチにユニークなセルタイプを割り当てることである。
このベンチマークは、様々な組織、疾患、ドナーの状態にまたがっており、ラベルの独特性を保証するために、バッチレベルの細胞コンテキストをまたいで推論する必要がある。
蒸留液の微調整を施した7B LLMのCell-o1を提案する。
論文 参考訳(メタデータ) (2025-06-03T14:16:53Z) - CellVerse: Do Large Language Models Really Understand Cell Biology? [74.34984441715517]
我々は,4種類のシングルセルマルチオミクスデータを統合する統一言語中心の質問応答ベンチマークであるCellVerseを紹介する。
我々は,CellVerse上で160Mから671Bまでの14のオープンソースおよびクローズドソースLLMの性能を体系的に評価した。
論文 参考訳(メタデータ) (2025-05-09T06:47:23Z) - Language-Enhanced Representation Learning for Single-Cell Transcriptomics [27.33236345953242]
単細胞転写学における言語強化表現学習のための新しいフレームワークである scMMGPT を提案する。
scMMGPTは、ロバストな細胞表現抽出を採用し、定量的な遺伝子発現データを保存し、革新的な2段階事前学習戦略を導入する。
論文 参考訳(メタデータ) (2025-03-12T14:26:16Z) - scReader: Prompting Large Language Models to Interpret scRNA-seq Data [12.767105992391555]
本稿では,大規模言語モデルの一般的な知識機能と,単一セルオミクスデータ解釈のためのドメイン固有表現モデルを統合する,革新的なハイブリッドアプローチを提案する。
単細胞遺伝子レベルでの遺伝子発現データをプロンプトで入力することにより、様々な種および細胞タイプにわたる遺伝子発現の差分レベルに基づいて、細胞表現を効果的にモデル化する。
論文 参考訳(メタデータ) (2024-12-24T04:28:42Z) - Multi-Modal and Multi-Attribute Generation of Single Cells with CFGen [76.02070962797794]
本研究では、単一セルデータ固有の離散性を保存するフローベースの条件生成モデルであるCellFlow for Generation (CFGen)を紹介する。
CFGenは、全ゲノムマルチモーダル単一セルデータを確実に生成し、重要な生物学的データ特性の回復を改善する。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - Mixed Models with Multiple Instance Learning [51.440557223100164]
一般化線形混合モデル(GLMM)とMultiple Instance Learning(MIL)を統合するフレームワークであるMixMILを紹介する。
実験結果から,MixMILは単一セルデータセットにおいて既存のMILモデルより優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-04T16:42:42Z) - Benchmarking Diverse-Modal Entity Linking with Generative Models [78.93737257356784]
既存の EL データセットから様々なモード EL (DMEL) のベンチマークを構築した。
DMEL タスクにアプローチするため,マルチモーダルエンコーダ・デコーダのパラダイムに則って生成多モードモデル (GDMM) を提案する。
GDMMは、より強力なDMELベースラインを構築し、平均8.51F1スコアで最先端のタスク固有のELモデルを上回っている。
論文 参考訳(メタデータ) (2023-05-27T02:38:46Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。