論文の概要: scMamba: A Scalable Foundation Model for Single-Cell Multi-Omics Integration Beyond Highly Variable Feature Selection
- arxiv url: http://arxiv.org/abs/2506.20697v1
- Date: Wed, 25 Jun 2025 12:58:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.82394
- Title: scMamba: A Scalable Foundation Model for Single-Cell Multi-Omics Integration Beyond Highly Variable Feature Selection
- Title(参考訳): scMamba: シングルセルマルチオミクス統合のためのスケーラブルなファンデーションモデル
- Authors: Zhen Yuan, Shaoqing Jiao, Yihang Xiao, Jiajie Peng,
- Abstract要約: scMambaはシングルセルのマルチオミクスデータを事前のフィーチャ選択を必要とせずに統合するために設計されたモデルである。
scMambaは、高次元のスパースシングルセルマルチオミクスデータから豊富な生物学的洞察を蒸留する。
われわれは scMamba を大規模シングルセルマルチオミクス統合の強力なツールとして位置づけた。
- 参考スコア(独自算出の注目度): 5.139014238424409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of single-cell multi-omics technologies has enabled the simultaneous profiling of diverse omics layers within individual cells. Integrating such multimodal data provides unprecedented insights into cellular identity, regulatory processes, and disease mechanisms. However, it remains challenging, as current methods often rely on selecting highly variable genes or peaks during preprocessing, which may inadvertently discard crucial biological information. Here, we present scMamba, a foundation model designed to integrate single-cell multi-omics data without the need for prior feature selection while preserving genomic positional information. scMamba introduces a patch-based cell tokenization strategy that treats genomics regions as words (tokens) and cells as sentences. Building upon the concept of state space duality, scMamba distills rich biological insights from high-dimensional, sparse single-cell multi-omics data. Additionally, our novel contrastive learning approach, enhanced with cosine similarity regularization, enables superior alignment across omics layers compared to traditional methods. Systematic benchmarking across multiple datasets demonstrates that scMamba significantly outperforms state-of-the-art methods in preserving biological variation, aligning omics layers, and enhancing key downstream tasks such as clustering, cell type annotation, and trajectory inference. Our findings position scMamba as a powerful tool for large-scale single-cell multi-omics integration, capable of handling large-scale atlases and advancing biological discovery.
- Abstract(参考訳): シングルセルマルチオミクス技術の出現により、個々の細胞内の多様なオミクス層の同時プロファイリングが可能になった。
このようなマルチモーダルデータを統合することは、細胞のアイデンティティ、規制プロセス、病気のメカニズムに関する前例のない洞察を与える。
しかし、現在の手法は、しばしば前処理中に高度に可変な遺伝子やピークを選択することに依存しており、それは必然的に重要な生物学的情報を捨てる可能性があるため、依然として困難である。
そこで本研究では,ゲノム位置情報を保存しながら,事前の特徴選択を必要とせず,単一セルマルチオミクスデータを統合した基礎モデルである scMamba を提案する。
scMambaは、ゲノム領域を単語(トークン)として、細胞を文として扱うパッチベースの細胞トークン化戦略を導入した。
状態空間双対性の概念に基づいて、cMambaは高次元のスパース単一セルマルチオミクスデータから豊富な生物学的洞察を蒸留する。
さらに,コサイン類似性規則化により強化された新しいコントラスト学習手法により,従来の手法に比べてオミクス層間のアライメントが向上した。
複数のデータセットにわたるシステマティックベンチマークは、cMambaが生物学的変動の保存、オミクス層の整列、クラスタリング、セルタイプアノテーション、軌跡推論といった重要な下流タスクの強化において、最先端の手法を著しく上回っていることを示している。
以上の結果から, scMambaは大規模単細胞マルチオミクス統合のための強力なツールであり, 大規模アトラスを処理し, 生物発見を推し進めることができると考えられた。
関連論文リスト
- Bidirectional Mamba for Single-Cell Data: Efficient Context Learning with Biological Fidelity [0.39945675027960637]
我々は、状態空間モデリングに基づいて構築された単一セル転写学のスケーラブルで効率的な基礎モデルであるGeneMambaを紹介した。
GeneMambaは、双方向の遺伝子コンテキストを線形時間複雑性でキャプチャし、トランスフォーマーベースラインよりもかなりの計算的ゲインを提供する。
我々は、マルチバッチ統合、細胞型アノテーション、遺伝子-遺伝子相関など様々なタスクにまたがってGeneMambaを評価し、高い性能、解釈可能性、堅牢性を示す。
論文 参考訳(メタデータ) (2025-04-22T20:34:47Z) - Multi-Modal and Multi-Attribute Generation of Single Cells with CFGen [76.02070962797794]
本研究では、単一セルデータ固有の離散性を保存するフローベースの条件生成モデルであるCellFlow for Generation (CFGen)を紹介する。
CFGenは、全ゲノムマルチモーダル単一セルデータを確実に生成し、重要な生物学的データ特性の回復を改善する。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - Single-Cell Deep Clustering Method Assisted by Exogenous Gene
Information: A Novel Approach to Identifying Cell Types [50.55583697209676]
我々は,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。
クラスタリング過程において,両情報の集合を統合し,細胞と遺伝子の特徴を再構成し,識別的表現を生成する。
本研究は、細胞の特徴と分布に関する知見を高め、疾患の早期診断と治療の基礎となる。
論文 参考訳(メタデータ) (2023-11-28T09:14:55Z) - Single-cell Multi-view Clustering via Community Detection with Unknown
Number of Clusters [64.31109141089598]
シングルセルデータに適した,革新的なマルチビュークラスタリング手法である scUNC を導入する。
scUNCは、事前に定義された数のクラスタを必要とせずに、異なるビューからの情報をシームレスに統合する。
3つの異なる単一セルデータセットを用いて,SCUNCの総合評価を行った。
論文 参考訳(メタデータ) (2023-11-28T08:34:58Z) - Mixed Models with Multiple Instance Learning [51.440557223100164]
一般化線形混合モデル(GLMM)とMultiple Instance Learning(MIL)を統合するフレームワークであるMixMILを紹介する。
実験結果から,MixMILは単一セルデータセットにおいて既存のMILモデルより優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-04T16:42:42Z) - Causal machine learning for single-cell genomics [94.28105176231739]
単細胞ゲノミクスへの機械学習技術の応用とその課題について論じる。
まず, 単一細胞生物学における現在の因果的アプローチの基盤となるモデルについて述べる。
次に、単一セルデータへの因果的アプローチの適用におけるオープンな問題を特定する。
論文 参考訳(メタデータ) (2023-10-23T13:35:24Z) - Modelling Technical and Biological Effects in scRNA-seq data with
Scalable GPLVMs [6.708052194104378]
我々は,ガウス過程潜在変数モデルである確率的非線形次元減少に対する一般的なアプローチを拡張し,大規模単一セルデータセットに拡張する。
鍵となる考え方は、高速な変動推論を可能にする下位境界の分解可能性を保存する拡張カーネルを使用することである。
論文 参考訳(メタデータ) (2022-09-14T15:25:15Z) - scICML: Information-theoretic Co-clustering-based Multi-view Learning
for the Integrative Analysis of Single-cell Multi-omics data [0.0]
マルチオミクス・シングルセルデータ統合のための情報理論を用いたマルチビュー学習法(scICML)を開発した。
scICMLは共同クラスタリングを使用して、データのビュー毎に同様の機能を集約し、セルの共通クラスタリングパターンを明らかにする。
実世界の4つのデータセットに対する実験により、SCICMLは全体のクラスタリング性能を改善し、末梢血単核球のデータ解析に関する生物学的知見を提供することが示された。
論文 参考訳(メタデータ) (2022-05-19T12:41:55Z) - Interpretable Single-Cell Set Classification with Kernel Mean Embeddings [14.686560033030101]
Kernel Mean Embeddingは、各プロファイルされた生物学的サンプルの細胞景観をエンコードする。
簡単な線形分類器を訓練し、3つのフローおよび質量データセットの最先端の分類精度を実現する。
論文 参考訳(メタデータ) (2022-01-18T21:40:36Z) - Contrastive Cycle Adversarial Autoencoders for Single-cell Multi-omics
Alignment and Integration [0.0]
本稿では,単一セルRNA-seqデータと単一セルATAC-seqデータとの整合と統合のための新しいフレームワークを提案する。
他の最先端手法と比較して,本手法はシミュレーションデータと実シングルセルデータの両方において優れた性能を発揮する。
論文 参考訳(メタデータ) (2021-12-05T13:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。