論文の概要: SToFM: a Multi-scale Foundation Model for Spatial Transcriptomics
- arxiv url: http://arxiv.org/abs/2507.11588v1
- Date: Tue, 15 Jul 2025 14:47:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.083948
- Title: SToFM: a Multi-scale Foundation Model for Spatial Transcriptomics
- Title(参考訳): SToFM:空間転写学のためのマルチスケール基礎モデル
- Authors: Suyuan Zhao, Yizhen Luo, Ganbo Yang, Yan Zhong, Hao Zhou, Zaiqing Nie,
- Abstract要約: 空間的トランスクリプトミクスの基礎モデルの構築は、膨大な複雑なデータソースの分析を大幅に強化することができる。
マルチスケールな空間トランスクリプトミクス基礎モデルであるSToFMを提案する。
SToFMは、組織領域セマンティックセグメンテーションや細胞型アノテーションなど、さまざまな下流タスクにおいて優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 14.008862724608415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial Transcriptomics (ST) technologies provide biologists with rich insights into single-cell biology by preserving spatial context of cells. Building foundational models for ST can significantly enhance the analysis of vast and complex data sources, unlocking new perspectives on the intricacies of biological tissues. However, modeling ST data is inherently challenging due to the need to extract multi-scale information from tissue slices containing vast numbers of cells. This process requires integrating macro-scale tissue morphology, micro-scale cellular microenvironment, and gene-scale gene expression profile. To address this challenge, we propose SToFM, a multi-scale Spatial Transcriptomics Foundation Model. SToFM first performs multi-scale information extraction on each ST slice, to construct a set of ST sub-slices that aggregate macro-, micro- and gene-scale information. Then an SE(2) Transformer is used to obtain high-quality cell representations from the sub-slices. Additionally, we construct \textbf{SToCorpus-88M}, the largest high-resolution spatial transcriptomics corpus for pretraining. SToFM achieves outstanding performance on a variety of downstream tasks, such as tissue region semantic segmentation and cell type annotation, demonstrating its comprehensive understanding of ST data
- Abstract(参考訳): 空間転写学 (Spatial Transcriptomics, ST) 技術は、細胞の空間的文脈を保存することによって、単細胞生物学に関する豊富な洞察を生物学者に与えている。
STの基礎モデルの構築は、巨大で複雑なデータソースの分析を大幅に強化し、生体組織の複雑さに関する新たな視点を開拓する。
しかし、大量の細胞を含む組織スライスからマルチスケール情報を抽出する必要があるため、STデータのモデリングは本質的に困難である。
このプロセスでは、マクロスケールの組織形態、マイクロスケールの細胞マイクロ環境、および遺伝子スケールの遺伝子発現プロファイルを統合する必要がある。
この課題に対処するため、我々はSTOFM(Spatial Transcriptomics Foundation Model)を提案する。
SToFMはまずSTスライス毎にマルチスケール情報抽出を行い、マクロ、マイクロ、遺伝子規模の情報を集約するSTサブスライスセットを構築する。
次に、SE(2)変換器を用いて、サブスライスから高品質な細胞表現を得る。
さらに,事前学習のための最大解像度空間転写コーパスであるtextbf{SToCorpus-88M} を構築した。
SToFMは、組織領域セマンティックセグメンテーションや細胞型アノテーションなど、様々な下流タスクにおいて優れたパフォーマンスを実現し、STデータの包括的理解を実証する
関連論文リスト
- SemanticST: Spatially Informed Semantic Graph Learning for Clustering, Integration, and Scalable Analysis of Spatial Transcriptomics [3.1403380447856426]
本稿では,空間転写学解析のためのグラフベースのディープラーニングフレームワークSemanticSTを提案する。
ミニバッチトレーニングをサポートしており、Xenium(50,000セル)のような大規模データセットにスケーラブルなグラフニューラルネットワークとしては初めてのものだ。
論文 参考訳(メタデータ) (2025-06-13T06:30:48Z) - CellVerse: Do Large Language Models Really Understand Cell Biology? [74.34984441715517]
我々は,4種類のシングルセルマルチオミクスデータを統合する統一言語中心の質問応答ベンチマークであるCellVerseを紹介する。
我々は,CellVerse上で160Mから671Bまでの14のオープンソースおよびクローズドソースLLMの性能を体系的に評価した。
論文 参考訳(メタデータ) (2025-05-09T06:47:23Z) - Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。
このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。
また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文 参考訳(メタデータ) (2024-12-26T12:12:23Z) - Multi-modal Spatial Clustering for Spatial Transcriptomics Utilizing High-resolution Histology Images [1.3124513975412255]
空間転写学(spatial transcriptomics, ST)は、空間的文脈を保ちながら、転写産物全体の遺伝子発現プロファイリングを可能にする。
現在の空間クラスタリング法では、高解像度の組織像と遺伝子発現データを完全に統合することができない。
本稿では、遺伝子発現データと組織像の特徴を融合した、新しいコントラスト学習に基づく深層学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T00:32:24Z) - scFusionTTT: Single-cell transcriptomics and proteomics fusion with Test-Time Training layers [14.254553622632594]
scFusionはTTTベースのマスク付きオートエンコーダを用いたシングルセルマルチモーダルオミクスフュージョンの新しい手法である。
我々はヒトゲノム中の遺伝子とタンパク質の秩序情報をTTT層と組み合わせ、マルチモーダルオミクスを融合させ、単調オミクス解析を強化する。
論文 参考訳(メタデータ) (2024-10-17T06:29:29Z) - MorphoSeg: An Uncertainty-Aware Deep Learning Method for Biomedical Segmentation of Complex Cellular Morphologies [5.50767638479269]
深層学習は医学や生物学的イメージング、特にセグメンテーションのタスクに革命をもたらした。
細胞の形態の多様性と複雑さのため、生物学的な細胞を分断することは依然として困難である。
我々は多能性癌細胞株であるNtera-2細胞の新しいベンチマークデータセットを導入する。
トレーニング中の低線量領域からの仮想アウトリーチのサンプリングを取り入れた,複雑な細胞形態区分(MorphoSeg)のための不確実性を考慮したディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-25T17:25:06Z) - Multi-Modal and Multi-Attribute Generation of Single Cells with CFGen [76.02070962797794]
本研究では、単一セルデータ固有の離散性を保存するフローベースの条件生成モデルであるCellFlow for Generation (CFGen)を紹介する。
CFGenは、全ゲノムマルチモーダル単一セルデータを確実に生成し、重要な生物学的データ特性の回復を改善する。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - Must: Maximizing Latent Capacity of Spatial Transcriptomics Data [41.70354088000952]
本稿では,この課題に対処する新しい手法である MuST について述べる。
STデータに含まれるマルチモダリティ情報を一様潜在空間に効果的に統合し、下流の全てのタスクの基礎を提供する。
その結果, 組織やバイオマーカーの構造を正確に同定し, 保存する上で, 既存の最先端手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-15T09:07:28Z) - Tertiary Lymphoid Structures Generation through Graph-based Diffusion [54.37503714313661]
本研究では,最先端のグラフベース拡散モデルを用いて生物学的に意味のある細胞グラフを生成する。
本研究では, グラフ拡散モデルを用いて, 3次リンパ構造(TLS)の分布を正確に学習できることを示す。
論文 参考訳(メタデータ) (2023-10-10T14:37:17Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。