論文の概要: Cell-ontology guided transcriptome foundation model
- arxiv url: http://arxiv.org/abs/2408.12373v1
- Date: Thu, 22 Aug 2024 13:15:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 13:53:43.105048
- Title: Cell-ontology guided transcriptome foundation model
- Title(参考訳): 細胞オントロジー誘導トランスクリプトーム基盤モデル
- Authors: Xinyu Yuan, Zhihao Zhan, Zuobai Zhang, Manqi Zhou, Jianan Zhao, Boyu Han, Yue Li, Jian Tang,
- Abstract要約: to present textbfsingle textbfcell, textbfCell-textbfontology guided TFM scCello。
我々のTFMは、生物学的に重要なタスクにおいて、既存のTFMよりも競争力と伝達性を示す。
- 参考スコア(独自算出の注目度): 18.51941953027685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transcriptome foundation models TFMs hold great promises of deciphering the transcriptomic language that dictate diverse cell functions by self-supervised learning on large-scale single-cell gene expression data, and ultimately unraveling the complex mechanisms of human diseases. However, current TFMs treat cells as independent samples and ignore the taxonomic relationships between cell types, which are available in cell ontology graphs. We argue that effectively leveraging this ontology information during the TFM pre-training can improve learning biologically meaningful gene co-expression patterns while preserving TFM as a general purpose foundation model for downstream zero-shot and fine-tuning tasks. To this end, we present \textbf{s}ingle \textbf{c}ell, \textbf{Cell}-\textbf{o}ntology guided TFM scCello. We introduce cell-type coherence loss and ontology alignment loss, which are minimized along with the masked gene expression prediction loss during the pre-training. The novel loss component guide scCello to learn the cell-type-specific representation and the structural relation between cell types from the cell ontology graph, respectively. We pre-trained scCello on 22 million cells from CellxGene database leveraging their cell-type labels mapped to the cell ontology graph from Open Biological and Biomedical Ontology Foundry. Our TFM demonstrates competitive generalization and transferability performance over the existing TFMs on biologically important tasks including identifying novel cell types of unseen cells, prediction of cell-type-specific marker genes, and cancer drug responses.
- Abstract(参考訳): トランスクリプトーム基礎モデル TFM は、大規模単一細胞遺伝子発現データによる自己教師付き学習により、多様な細胞機能を規定する転写言語を解読し、究極的にはヒト疾患の複雑なメカニズムを解明する、という大きな約束を持っている。
しかし、現在のTFMは、細胞を独立したサンプルとして扱い、細胞オントロジーグラフで利用可能な細胞タイプ間の分類学的関係を無視している。
我々は、このオントロジー情報をTFM事前学習で効果的に活用することで、生物学的に意味のある遺伝子共発現パターンを学習し、TFMを下流ゼロショットおよび微調整タスクのための汎用基盤モデルとして保存することが可能になると論じている。
この目的のために、 TFM scCello をガイドした \textbf{s}ingle \textbf{c}ell, \textbf{Cell}-\textbf{o}ntology を示す。
本研究は,細胞型コヒーレンス・ロスとオントロジーアライメント・ロスを導入し,プレトレーニング中のマスク付き遺伝子発現予測損失と合わせて最小化する。
新規な損失成分ガイドscCelloは、細胞オントロジーグラフから細胞タイプ特異的表現と細胞タイプ間の構造的関係をそれぞれ学習する。
オープンバイオロジー・バイオメディカルオントロジーファウンデーションの細胞オントロジーグラフにマッピングされた細胞型ラベルを利用して,CellxGeneデータベースから2200万の細胞上でscCelloを事前訓練した。
我々のTFMは、新規な未確認細胞のタイプ同定、細胞型特異的マーカー遺伝子の予測、がん薬物応答など、生物学的に重要なタスクにおいて、既存のTFMよりも競合的な一般化と伝達性性能を示す。
関連論文リスト
- Generating Multi-Modal and Multi-Attribute Single-Cell Counts with CFGen [76.02070962797794]
マルチモーダル単細胞数に対するフローベース条件生成モデルであるセルフロー・フォー・ジェネレーションを提案する。
本研究は, 新規な生成タスクを考慮に入れた上で, 重要な生物学的データ特性の回復性の向上を示唆するものである。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - MMIL: A novel algorithm for disease associated cell type discovery [58.044870442206914]
単一細胞データセットは、しばしば個々の細胞ラベルを欠いているため、病気に関連する細胞を特定することは困難である。
セルレベルの分類器の訓練と校正を可能にする予測手法であるMixture Modeling for Multiple Learning Instance (MMIL)を導入する。
論文 参考訳(メタデータ) (2024-06-12T15:22:56Z) - LangCell: Language-Cell Pre-training for Cell Identity Understanding [3.6518971609937068]
我々は,事前学習期間中に,単一セルデータと自然言語の統一表現であるLangCellを紹介する。
以上の結果から,ゼロショットセル識別理解シナリオにおいて効果的に機能できる単一セルPLMはLangCellのみであることが示唆された。
論文 参考訳(メタデータ) (2024-05-09T10:04:05Z) - scBiGNN: Bilevel Graph Representation Learning for Cell Type
Classification from Single-cell RNA Sequencing Data [62.87454293046843]
グラフニューラルネットワーク(GNN)は、セルタイプの自動分類に広く利用されている。
scBiGNNは2つのGNNモジュールから構成され、細胞型を識別する。
scBiGNNは、scRNA-seqデータから細胞型分類のための様々な方法より優れている。
論文 参考訳(メタデータ) (2023-12-16T03:54:26Z) - Single-Cell Deep Clustering Method Assisted by Exogenous Gene
Information: A Novel Approach to Identifying Cell Types [50.55583697209676]
我々は,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。
クラスタリング過程において,両情報の集合を統合し,細胞と遺伝子の特徴を再構成し,識別的表現を生成する。
本研究は、細胞の特徴と分布に関する知見を高め、疾患の早期診断と治療の基礎となる。
論文 参考訳(メタデータ) (2023-11-28T09:14:55Z) - Tertiary Lymphoid Structures Generation through Graph-based Diffusion [54.37503714313661]
本研究では,最先端のグラフベース拡散モデルを用いて生物学的に意味のある細胞グラフを生成する。
本研究では, グラフ拡散モデルを用いて, 3次リンパ構造(TLS)の分布を正確に学習できることを示す。
論文 参考訳(メタデータ) (2023-10-10T14:37:17Z) - Revolutionizing Single Cell Analysis: The Power of Large Language Models
for Cell Type Annotation [0.0]
ChatGPTやNew Bingのような大規模な言語モデルは、細胞型の正確なアノテーションを提供する。
単一細胞データのアノテートにChatGPTを用いることで、レア細胞型を機能に関連付けることができる。
これは、がんの進行、哺乳類の発達、幹細胞の分化を理解する上で重要な応用となる。
論文 参考訳(メタデータ) (2023-04-05T18:45:54Z) - Topology-Guided Multi-Class Cell Context Generation for Digital
Pathology [28.43244574309888]
空間統計学とトポロジカルデータ解析の数学的ツールをいくつか紹介する。
高品質なマルチクラスセルレイアウトを初めて生成する。
トポロジに富んだセルレイアウトは,データ拡張やセル分類などの下流タスクの性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-05T07:01:34Z) - OCELOT: Overlapped Cell on Tissue Dataset for Histopathology [13.691924123273004]
組織学における細胞検出のための細胞間関係研究のためのデータセットであるOCELOTをリリースする。
細胞と組織の両方のタスクを同時に学習できるマルチタスク学習手法を提案する。
特にOCELOTテストセットでは、F1スコアが最大6.79改善されている。
論文 参考訳(メタデータ) (2023-03-23T08:57:11Z) - Granger causal inference on DAGs identifies genomic loci regulating
transcription [77.58911272503771]
GrID-Netは、DBG構造化システムにおけるGranger因果推論のためのラタグメッセージパッシングを備えたグラフニューラルネットワークに基づくフレームワークである。
我々の応用は、特定の遺伝子の調節を仲介するゲノム座を同定する単一セルマルチモーダルデータの解析である。
論文 参考訳(メタデータ) (2022-10-18T21:15:10Z) - Cell abundance aware deep learning for cell detection on highly
imbalanced pathological data [0.0]
デジタル病理学では、少ない細胞型は生物学的に重要である。
モデルトレーニング中の細胞型の豊富さを考慮した深層学習パイプラインを提案しました。
その結果,細胞量による深層学習損失関数のスケールアップは細胞検出性能を向上させることがわかった。
論文 参考訳(メタデータ) (2021-02-23T13:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。