論文の概要: scpFormer: A Foundation Model for Unified Representation and Integration of the Single-Cell Proteomics
- arxiv url: http://arxiv.org/abs/2604.20003v1
- Date: Tue, 21 Apr 2026 21:27:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.853948
- Title: scpFormer: A Foundation Model for Unified Representation and Integration of the Single-Cell Proteomics
- Title(参考訳): scpFormer:シングルセルプロテオミクスの統一表現と統合のための基礎モデル
- Authors: Qifeng Zhou, Lei Yu, Yuzhi Guo, Yuwei Miao, Hehuan Ma, Wenliang Zhong, Lin Xu, Junzhou Huang,
- Abstract要約: 単セルプロテオミクスデータのためのトランスフォーマーベース基盤モデルである scpFormer を導入する。
ScpFormerは、標準的なインデックスベースのトークン化を、連続的なシーケンスアンコールアプローチで置き換える。
可変パネルを人工的な離散化なしで共有意味空間にマッピングする。
- 参考スコア(独自算出の注目度): 28.888118677992562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of single-cell proteomic data is often hindered by the fragmented nature of targeted antibody panels. To address this limitation, we introduce scpFormer, a transformer-based foundation model designed for single-cell proteomics. Pre-trained on over 390 million cells, scpFormer replaces standard index-based tokenization with a continuous, sequence-anchored approach. By combining Evolutionary Scale Modeling (ESM) with value-aware expression embeddings, it dynamically maps variable panels into a shared semantic space without artificial discretization. We demonstrate that scpFormer generates global cell representations that perform competitively in large-scale batch integration and unsupervised clustering. Moreover, its open-vocabulary architecture facilitates in silico panel expansion, assisting in the reconstruction of biological manifolds in sparse clinical datasets. Finally, this learned protein co-expression logic is transferable to bulk-omics tasks, supporting applications like cancer drug response prediction. scpFormer provides a versatile, panel-agnostic framework to facilitate scalable biomarker discovery and precision oncology.
- Abstract(参考訳): 単細胞プロテオミクスデータの統合は、しばしば標的となる抗体パネルの断片化の性質によって妨げられる。
この制限に対処するために,シングルセルプロテオミクス用に設計されたトランスフォーマーベースの基盤モデルである scpFormer を導入する。
3億9000万以上の細胞で事前トレーニングされた scpFormer は、標準的なインデックスベースのトークン化を、連続的なシーケンスアンコールアプローチで置き換える。
進化的スケールモデリング(ESM)と値認識式埋め込みを組み合わせることで、可変パネルを人工的な離散化なしで共有意味空間に動的にマッピングする。
我々は scpFormer が大規模なバッチ統合や教師なしクラスタリングにおいて競争力のあるグローバルなセル表現を生成することを実証した。
さらに、そのオープン語彙アーキテクチャは、サイリコパネルの拡大を促進し、疎い臨床データセットにおける生物学的多様体の再構築を支援する。
最後に、この学習されたタンパク質の共発現ロジックは、がん薬の反応予測のような応用をサポートするバルクオミクスタスクに転送可能である。
scpFormerは、スケーラブルなバイオマーカー発見と精度オンコロジーを容易にする、汎用的でパネルに依存しないフレームワークを提供する。
関連論文リスト
- MoRE: Batch-Robust Multi-Omics Representations from Frozen Pre-trained Transformers [0.0]
本稿では, 凍結事前学習型トランスフォーマーを応用し, 不均一なアッセイを共有潜在空間に整列させるフレームワークであるMoRE(Multi-Omics Representation Embedding)を提案する。
特に、MoREは軽量でモジュラリティ固有のアダプタとタスク適応型融合層を冷凍バックボーンに取り付ける。
我々は、Scrublet を用いた scGPT, scVI, Harmony など、確立されたベースラインに対して MoRE をベンチマークし、統合忠実度、希少な人口検出、モダリティ伝達を評価した。
論文 参考訳(メタデータ) (2025-11-25T15:04:06Z) - scMRDR: A scalable and flexible framework for unpaired single-cell multi-omics data integration [53.683726781791385]
単一セルマルチオミクス(ScMRDR)と呼ばれるスケーラブルでフレキシブルな生成フレームワークを導入する。
本手法は, バッチ補正, モダリティアライメント, 生体信号保存の観点から, ベンチマークデータセット上での優れた性能を実現する。
論文 参考訳(メタデータ) (2025-10-28T21:28:39Z) - ITC-RWKV: Interactive Tissue-Cell Modeling with Recurrent Key-Value Aggregation for Histopathological Subtyping [2.99938892718088]
本稿では,マクロ組織の特徴と集合細胞表現との相互作用をモデル化したデュアルストリームアーキテクチャを提案する。
組織と細胞間の双方向の相互作用モジュールを導入し, 局所的な細胞キューと周囲の組織環境の相互の注意を喚起する。
論文 参考訳(メタデータ) (2025-10-24T14:03:52Z) - ProteinAE: Protein Diffusion Autoencoders for Structure Encoding [64.77182442408254]
本稿では,新規かつ合理化されたタンパク質拡散オートエンコーダであるProteinAEを紹介する。
プロテインAEは、タンパク質のバックボーン座標を直接E(3)から連続的でコンパクトな潜在空間にマッピングする。
本研究では,既存のオートエンコーダよりも優れた,最先端の再構築品質を実現することを実証する。
論文 参考訳(メタデータ) (2025-10-12T14:30:32Z) - CellPainTR: Generalizable Representation Learning for Cross-Dataset Cell Painting Analysis [51.56484100374058]
本稿では,細胞形態の基本的な表現を学習するためのトランスフォーマーベースのアーキテクチャであるCellPainTRを紹介する。
私たちの研究は、画像ベースのプロファイリングのための真の基盤モデルを作成するための重要なステップであり、より信頼性が高くスケーラブルなクロススタディ生物学的分析を可能にします。
論文 参考訳(メタデータ) (2025-09-02T03:30:07Z) - Controllable diffusion-based generation for multi-channel biological data [66.44042377817074]
本研究では, 構造的および空間的生物学的データに対する制御可能生成のための統合拡散フレームワークを提案する。
空間的および非空間的予測タスクにまたがって,IMCにおけるタンパク質のインパルス化や単一セルデータセットにおける遺伝子対タンパク質の予測など,最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-06-24T00:56:21Z) - Structure Language Models for Protein Conformation Generation [66.42864253026053]
伝統的な物理学に基づくシミュレーション手法は、しばしばサンプリング平衡整合に苦しむ。
深い生成モデルは、より効率的な代替としてタンパク質のコンホメーションを生成することを約束している。
本稿では,効率的なタンパク質コンホメーション生成のための新しいフレームワークとして構造言語モデリングを紹介する。
論文 参考訳(メタデータ) (2024-10-24T03:38:51Z) - Scalable Amortized GPLVMs for Single Cell Transcriptomics Data [9.010523724015398]
大規模単細胞RNA-seqデータの解析には次元化が不可欠である。
改良されたモデル、償却変分モデル(BGPLVM)を導入する。
BGPLVMは、特殊なエンコーダ、カーネル、そして可能性設計を備えたシングルセルRNA-seq向けに調整されている。
論文 参考訳(メタデータ) (2024-05-06T21:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。