論文の概要: ChromFound: Towards A Universal Foundation Model for Single-Cell Chromatin Accessibility Data
- arxiv url: http://arxiv.org/abs/2505.12638v2
- Date: Tue, 20 May 2025 02:40:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 12:33:37.438149
- Title: ChromFound: Towards A Universal Foundation Model for Single-Cell Chromatin Accessibility Data
- Title(参考訳): ChromFound: シングルセルクロマチンアクセシビリティデータのためのユニバーサルファンデーションモデル
- Authors: Yifeng Jiao, Yuchen Liu, Yu Zhang, Xin Guo, Yushuai Wu, Chen Jiang, Jiyang Li, Hongwei Zhang, Limei Han, Xin Gao, Yuan Qi, Yuan Cheng,
- Abstract要約: シークエンシング(scATAC-eq)を用いたトランスポラーゼ-クロマチンの単細胞測定法
ChromFound は scATAC-eq 用に設計された基礎モデルである。
- 参考スコア(独自算出の注目度): 24.68667275455985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advent of single-cell Assay for Transposase-Accessible Chromatin using sequencing (scATAC-seq) offers an innovative perspective for deciphering regulatory mechanisms by assembling a vast repository of single-cell chromatin accessibility data. While foundation models have achieved significant success in single-cell transcriptomics, there is currently no foundation model for scATAC-seq that supports zero-shot high-quality cell identification and comprehensive multi-omics analysis simultaneously. Key challenges lie in the high dimensionality and sparsity of scATAC-seq data, as well as the lack of a standardized schema for representing open chromatin regions (OCRs). Here, we present ChromFound, a foundation model tailored for scATAC-seq. ChromFound utilizes a hybrid architecture and genome-aware tokenization to effectively capture genome-wide long contexts and regulatory signals from dynamic chromatin landscapes. Pretrained on 1.97 million cells from 30 tissues and 6 disease conditions, ChromFound demonstrates broad applicability across 6 diverse tasks. Notably, it achieves robust zero-shot performance in generating universal cell representations and exhibits excellent transferability in cell type annotation and cross-omics prediction. By uncovering enhancer-gene links undetected by existing computational methods, ChromFound offers a promising framework for understanding disease risk variants in the noncoding genome.
- Abstract(参考訳): シークエンシング(scATAC-seq)を用いたトランスポラーゼ-アクセシブルクロマチン単細胞アッセイの出現は、単一細胞クロマチンアクセシビリティーデータの巨大なリポジトリを組み立てることで、制御機構の解読に革新的な視点を与える。
基礎モデルは単細胞転写学において大きな成功を収めてきたが、現在、ゼロショットの高品質な細胞識別と包括的マルチオミクス解析を同時にサポートするscataC-seqの基礎モデルはない。
主な課題は、オープンクロマチン領域(OCR)を表すための標準化されたスキーマの欠如に加えて、skATAC-seqデータの高次元性とスパース性にある。
ここでは、 scATAC-seq に適した基礎モデルである ChromFound を紹介する。
ChromFoundはハイブリッドアーキテクチャとゲノム認識トークン化を利用して、動的クロマチン地形からゲノム全体の長いコンテキストと制御シグナルを効果的に捕捉する。
30の組織と6の疾患から1.97万の細胞に事前訓練され、ChromFoundは6つの異なるタスクにまたがって幅広い適用性を示す。
特に、ユニバーサルなセル表現の生成において、ロバストなゼロショット性能を実現し、セル型アノテーションとクロスオミクス予測において優れた転送性を示す。
既存の計算方法で検出されていないエンハンサー遺伝子リンクを明らかにすることで、ChromFoundは非コードゲノムの病気リスク変異を理解するための有望なフレームワークを提供する。
関連論文リスト
- scReader: Prompting Large Language Models to Interpret scRNA-seq Data [12.767105992391555]
本稿では,大規模言語モデルの一般的な知識機能と,単一セルオミクスデータ解釈のためのドメイン固有表現モデルを統合する,革新的なハイブリッドアプローチを提案する。
単細胞遺伝子レベルでの遺伝子発現データをプロンプトで入力することにより、様々な種および細胞タイプにわたる遺伝子発現の差分レベルに基づいて、細胞表現を効果的にモデル化する。
論文 参考訳(メタデータ) (2024-12-24T04:28:42Z) - Multi-Modal and Multi-Attribute Generation of Single Cells with CFGen [76.02070962797794]
本研究では、単一セルデータ固有の離散性を保存するフローベースの条件生成モデルであるCellFlow for Generation (CFGen)を紹介する。
CFGenは、全ゲノムマルチモーダル単一セルデータを確実に生成し、重要な生物学的データ特性の回復を改善する。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - Scalable Amortized GPLVMs for Single Cell Transcriptomics Data [9.010523724015398]
大規模単細胞RNA-seqデータの解析には次元化が不可欠である。
改良されたモデル、償却変分モデル(BGPLVM)を導入する。
BGPLVMは、特殊なエンコーダ、カーネル、そして可能性設計を備えたシングルセルRNA-seq向けに調整されている。
論文 参考訳(メタデータ) (2024-05-06T21:54:38Z) - sc-OTGM: Single-Cell Perturbation Modeling by Solving Optimal Mass Transport on the Manifold of Gaussian Mixtures [0.9674145073701153]
sc-OTGMは、scRNAseqデータが生成される誘導バイアスに基づく教師なしモデルである。
sc-OTGMは細胞状態の分類、異なる遺伝子発現の解析、標的同定のための遺伝子ランキングに有効である。
また、下流遺伝子制御に対する単一遺伝子の摂動の影響を予測し、特定の細胞状態に条件付けられた合成scRNA-seqデータを生成する。
論文 参考訳(メタデータ) (2024-05-06T06:46:11Z) - Single-Cell Deep Clustering Method Assisted by Exogenous Gene
Information: A Novel Approach to Identifying Cell Types [50.55583697209676]
我々は,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。
クラスタリング過程において,両情報の集合を統合し,細胞と遺伝子の特徴を再構成し,識別的表現を生成する。
本研究は、細胞の特徴と分布に関する知見を高め、疾患の早期診断と治療の基礎となる。
論文 参考訳(メタデータ) (2023-11-28T09:14:55Z) - Mixed Models with Multiple Instance Learning [51.440557223100164]
一般化線形混合モデル(GLMM)とMultiple Instance Learning(MIL)を統合するフレームワークであるMixMILを紹介する。
実験結果から,MixMILは単一セルデータセットにおいて既存のMILモデルより優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-04T16:42:42Z) - Masked conditional variational autoencoders for chromosome straightening [14.665481276886194]
核タイピングはヒト疾患における染色体異常の検出に重要である。
染色体は顕微鏡画像に容易に湾曲し、細胞遺伝学者が染色体の型を分析するのを防ぐ。
本稿では,前処理アルゴリズムと生成モデルを組み合わせた染色体ストレート化の枠組みを提案する。
論文 参考訳(メタデータ) (2023-06-25T05:11:41Z) - A biology-driven deep generative model for cell-type annotation in
cytometry [0.0]
Scyanはシングルセルサイトメトリーネットワークで,事前知識のみを用いて細胞タイプを自動的にアノテートする。
Scyanは、複数の公開データセット上の関連する最先端モデルよりも高速で解釈可能である。
さらに、Scyanはバッチ効果除去、デバーコーディング、人口発見など、いくつかの補完的なタスクを克服している。
論文 参考訳(メタデータ) (2022-08-11T10:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。