論文の概要: HEIST: A Graph Foundation Model for Spatial Transcriptomics and Proteomics Data
- arxiv url: http://arxiv.org/abs/2506.11152v2
- Date: Thu, 25 Sep 2025 19:18:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 14:23:57.450186
- Title: HEIST: A Graph Foundation Model for Spatial Transcriptomics and Proteomics Data
- Title(参考訳): HEIST:空間転写学とプロテオミクスデータのためのグラフ基礎モデル
- Authors: Hiren Madhu, João Felipe Rocha, Tinglin Huang, Siddharth Viswanath, Smita Krishnaswamy, Rex Ying,
- Abstract要約: 本稿では,空間転写学とトランスフォーマーのための階層グラフ基盤モデルであるHEISTを紹介する。
HEISTは、124の組織から15の臓器の22.3M細胞に、空間的に認識されるコントラストとマスクされた自己エンコーディングの目的を用いて事前訓練されている。
- 参考スコア(独自算出の注目度): 25.915980581662023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Single-cell transcriptomics and proteomics have become a great source for data-driven insights into biology, enabling the use of advanced deep learning methods to understand cellular heterogeneity and gene expression at the single-cell level. With the advent of spatial-omics data, we have the promise of characterizing cells within their tissue context as it provides both spatial coordinates and intra-cellular transcriptional or protein counts. Proteomics offers a complementary view by directly measuring proteins, which are the primary effectors of cellular function and key therapeutic targets. However, existing models either ignore the spatial information or the complex genetic and proteomic programs within cells. Thus they cannot infer how cell internal regulation adapts to microenvironmental cues. Furthermore, these models often utilize fixed gene vocabularies, hindering their generalizability unseen genes. In this paper, we introduce HEIST, a hierarchical graph transformer foundation model for spatial transcriptomics and proteomics. HEIST models tissues as hierarchical graphs. The higher level graph is a spatial cell graph, and each cell in turn, is represented by its lower level gene co-expression network graph. HEIST achieves this by performing both intra-level and cross-level message passing to utilize the hierarchy in its embeddings and can thus generalize to novel datatypes including spatial proteomics without retraining. HEIST is pretrained on 22.3M cells from 124 tissues across 15 organs using spatially-aware contrastive and masked autoencoding objectives. Unsupervised analysis of HEIST embeddings reveals spatially informed subpopulations missed by prior models. Downstream evaluations demonstrate generalizability to proteomics data and state-of-the-art performance in clinical outcome prediction, cell type annotation, and gene imputation across multiple technologies.
- Abstract(参考訳): 単細胞転写学とプロテオミクスは、単細胞レベルでの細胞不均一性と遺伝子発現を理解するための高度な深層学習法を利用できるように、生物学におけるデータ駆動的な洞察の源となっている。
空間オミクスデータの出現により、空間座標と細胞内転写またはタンパク質数の両方を提供するので、組織コンテキスト内の細胞を特徴付けることが約束される。
プロテオミクス(Proteomics)は、タンパク質を直接測定することで補完的な視点を提供する。
しかし、既存のモデルは空間情報を無視するか、細胞内の複雑な遺伝的・プロテオミクスプログラムを無視している。
そのため、細胞内部の調節が微小環境にどのように適応するかを推測することはできない。
さらに、これらのモデルは固定された遺伝子語彙をしばしば利用し、その一般化不可能な遺伝子を阻害する。
本稿では,空間転写学とプロテオミクスのための階層型グラフトランスフォーマー基盤モデルであるHEISTを紹介する。
HEISTは組織を階層グラフとしてモデル化する。
上位レベルグラフは空間セルグラフであり、各セルは下位レベル遺伝子共発現ネットワークグラフで表される。
HEISTは、内部レベルのメッセージパッシングとクロスレベルのメッセージパッシングの両方を実行して、埋め込みの階層化を活用し、空間プロテオミクスを含む新しいデータタイプに再トレーニングせずに一般化することができる。
HEISTは、124の組織から15の臓器の22.3M細胞に、空間的に認識されるコントラストとマスクされた自己エンコーディングの目的を用いて事前訓練されている。
HEIST埋め込みの教師なし解析は、以前のモデルで見逃された空間的に情報を得たサブ集団を明らかにする。
下流評価では, 臨床結果予測, 細胞型アノテーション, 遺伝子解析におけるプロテオミクスデータへの一般化可能性を示す。
関連論文リスト
- SPATIA: Multimodal Model for Prediction and Generation of Spatial Cell Phenotypes [39.45743286683448]
本研究では,空間転写学のマルチスケール生成予測モデルであるSPATIAを紹介する。
SPATIAは、画像由来のモルフォロジートークンと転写ベクタートークンを融合させることで、細胞レベルの埋め込みを学習する。
われわれはSPATIAを12のタスクにまたがる13の既存モデルに対してベンチマークする。
論文 参考訳(メタデータ) (2025-07-07T06:54:02Z) - OmniCellTOSG: The First Cell Text-Omic Signaling Graphs Dataset for Joint LLM and GNN Modeling [14.455616582960557]
OmniCellTOSGは、セルテキスト・オミリック・シグナリンググラフ(TOSG)の最初のデータセットである。
各TOSGは、個人またはメタセルのシグナルネットワークを表し、臓器、疾患、性別、年齢、細胞サブタイプなどの情報でラベル付けされる。
データセットは継続的に拡張され、定期的に更新される。
論文 参考訳(メタデータ) (2025-04-02T21:47:58Z) - A scalable gene network model of regulatory dynamics in single cells [88.48246132084441]
本稿では,遺伝子ネットワーク構造を結合微分方程式に組み込んで,遺伝子制御関数をモデル化する機能的学習可能モデルFLeCSを提案する。
FLeCS は (pseudo) 時系列の単一セルデータから, セルの動態を正確に推定する。
論文 参考訳(メタデータ) (2025-03-25T19:19:21Z) - HistoSmith: Single-Stage Histology Image-Label Generation via Conditional Latent Diffusion for Enhanced Cell Segmentation and Classification [0.19791587637442667]
本研究は, 画像ラベルペア生成のための新しい単一ステージアプローチを導入し, 組織学データセットを増強する。
ラベル生成と画像生成を分離した拡散モデルを用いる最先端の手法とは異なり,本手法では遅延拡散モデルを用いる。
このモデルは、細胞タイプ、量、組織タイプなどのユーザ定義パラメータを条件付けすることで、データ生成の調整を可能にする。
論文 参考訳(メタデータ) (2025-02-12T19:51:41Z) - Cell-ontology guided transcriptome foundation model [18.51941953027685]
オープンバイオロジー・バイオメディカルオントロジーファウンデーションの細胞オントロジーグラフにマッピングされた細胞型ラベルを利用して,CellxGeneデータベースから2200万の細胞上でscCelloを事前訓練した。
我々のTFMは、生物学的に重要なタスクにおいて、既存のTFMよりも競合的な一般化と伝達性性能を示す。
論文 参考訳(メタデータ) (2024-08-22T13:15:49Z) - Multi-Modal and Multi-Attribute Generation of Single Cells with CFGen [76.02070962797794]
本研究では、単一セルデータ固有の離散性を保存するフローベースの条件生成モデルであるCellFlow for Generation (CFGen)を紹介する。
CFGenは、全ゲノムマルチモーダル単一セルデータを確実に生成し、重要な生物学的データ特性の回復を改善する。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - scBiGNN: Bilevel Graph Representation Learning for Cell Type
Classification from Single-cell RNA Sequencing Data [62.87454293046843]
グラフニューラルネットワーク(GNN)は、セルタイプの自動分類に広く利用されている。
scBiGNNは2つのGNNモジュールから構成され、細胞型を識別する。
scBiGNNは、scRNA-seqデータから細胞型分類のための様々な方法より優れている。
論文 参考訳(メタデータ) (2023-12-16T03:54:26Z) - Single-Cell Deep Clustering Method Assisted by Exogenous Gene
Information: A Novel Approach to Identifying Cell Types [50.55583697209676]
我々は,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。
クラスタリング過程において,両情報の集合を統合し,細胞と遺伝子の特徴を再構成し,識別的表現を生成する。
本研究は、細胞の特徴と分布に関する知見を高め、疾患の早期診断と治療の基礎となる。
論文 参考訳(メタデータ) (2023-11-28T09:14:55Z) - Tertiary Lymphoid Structures Generation through Graph-based Diffusion [54.37503714313661]
本研究では,最先端のグラフベース拡散モデルを用いて生物学的に意味のある細胞グラフを生成する。
本研究では, グラフ拡散モデルを用いて, 3次リンパ構造(TLS)の分布を正確に学習できることを示す。
論文 参考訳(メタデータ) (2023-10-10T14:37:17Z) - Topology-Guided Multi-Class Cell Context Generation for Digital
Pathology [28.43244574309888]
空間統計学とトポロジカルデータ解析の数学的ツールをいくつか紹介する。
高品質なマルチクラスセルレイアウトを初めて生成する。
トポロジに富んだセルレイアウトは,データ拡張やセル分類などの下流タスクの性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-05T07:01:34Z) - Self-Supervised Graph Representation Learning for Neuronal Morphologies [75.38832711445421]
ラベルのないデータセットから3次元神経形態の低次元表現を学習するためのデータ駆動型アプローチであるGraphDINOを提案する。
2つの異なる種と複数の脳領域において、この方法では、専門家による手動の特徴に基づく分類と同程度に形態学的細胞型クラスタリングが得られることを示す。
提案手法は,大規模データセットにおける新しい形態的特徴や細胞型の発見を可能にする可能性がある。
論文 参考訳(メタデータ) (2021-12-23T12:17:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。