論文の概要: Nested Atoms Model with Application to Clustering Big Population-Scale Single-Cell Data
- arxiv url: http://arxiv.org/abs/2604.11731v1
- Date: Mon, 13 Apr 2026 17:06:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.704402
- Title: Nested Atoms Model with Application to Clustering Big Population-Scale Single-Cell Data
- Title(参考訳): Nested Atoms Modelと大規模シングルセルデータのクラスタリングへの応用
- Authors: Arhit Chakrabarti, Yang Ni, Yuchao Jiang, Bani K. Mallick,
- Abstract要約: 我々は、観測がグループ化され、グループレベルと観測レベルの両方の変数が存在する、ネストデータや階層データのクラスタリングの問題を考える。
われわれのOneK1Kデータセットでは、792人の単細胞RNAシークエンシング(scRNA-seq)データからなる。
所望の2層クラスタリングを可能にする新しいベイズ非パラメトリックアプローチであるNested Atoms Model (NAM)を提案する。
- 参考スコア(独自算出の注目度): 5.63040260707728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of clustering nested or hierarchical data, where observations are grouped and there are both group-level and observation-level variables. In our motivating OneK1K dataset, observations consist of single-cell RNA-sequencing (scRNA-seq) data from 982 individuals (groups), totaling 1.27 million cells (observations), along with individual-specific genotype data. This type of data would enable the identification of cell types and the investigation of how genetic variations among individuals influence differences in cell-type profiles. Our goal, therefore, is to jointly cluster cells and individuals to capture the heterogeneity across both levels using cell-specific gene expressions as well as individual-specific genotypes. However, existing grouped clustering methods do not incorporate group-level variables, thereby limiting their ability to capture the heterogeneity of genotypes in our motivating application. To address this, we propose the Nested Atoms Model (NAM), a new Bayesian nonparametric approach that enables the desired two-layered clustering, accounting for both group-level and observation-level variables. To scale NAM for high-dimensional data, we develop a fast variational Bayesian inference algorithm. Simulations show that NAM outperforms existing methods that ignore group-level variables. Applied to the OneK1K dataset, NAM identifies clusters of genetically similar individuals with homogeneous cell-type profiles. The resulting cell clusters align with known immune cell types based on differential gene expression, underscoring the ability of NAM to capture nested heterogeneity and provide biologically meaningful insights.
- Abstract(参考訳): 我々は、観測がグループ化され、グループレベルと観測レベルの両方の変数が存在する、ネストデータや階層データのクラスタリングの問題を考える。
OneK1Kをモチベーションするデータセットでは、792人(グループ)の単一細胞RNAシークエンシング(scRNA-seq)データと127万の細胞(観測)データと、個別の遺伝子型データで構成されています。
このタイプのデータは、細胞の種類を識別し、個体間の遺伝的変異が細胞型プロファイルの違いにどのように影響するかを調査することを可能にする。
そこで本研究の目的は, 細胞特異的な遺伝子発現と個体特異的な遺伝子型を用いて, 両レベルをまたいだ不均一性を, 共同でクラスタリングすることである。
しかし、既存のグループクラスタリング手法では、グループレベルの変数を含まないため、動機付けアプリケーションにおけるジェノタイプの不均一性を捕捉する能力が制限される。
これを解決するために,Nested Atoms Model (NAM) を提案する。これはベイズ的非パラメトリックなアプローチで,グループレベルと観測レベルの両方の変数を考慮に入れながら,所望の2層クラスタリングを可能にする。
高次元データに対してNAMをスケールするために,高速変動ベイズ推論アルゴリズムを開発した。
シミュレーションにより、NAMはグループレベルの変数を無視する既存のメソッドよりも優れていることが示された。
NAMはOneK1Kデータセットに適用し、同質の細胞型プロファイルを持つ遺伝的に類似した個人のクラスターを同定する。
得られた細胞クラスターは、差分遺伝子発現に基づく既知の免疫細胞タイプと一致し、ネストした不均一性を捕捉し、生物学的に有意義な洞察を与えるNAMの能力を裏付ける。
関連論文リスト
- Bipartite Graph Attention-based Clustering for Large-scale scRNA-seq Data [12.341331216251582]
グラフトランスフォーマーベースのモデルのような既存のscRNA-seqクラスタリングの方法は、各セルをシーケンス内のトークンとして扱う。
そこで本研究では,ScRNA-seqデータに対するBipartite Graph Transformerベースのクラスタリングモデルを提案する。
BGFormerは、セルの数に関して線形計算の複雑さを達成し、大規模なデータセットにスケーラブルにする。
論文 参考訳(メタデータ) (2026-02-07T10:10:18Z) - scSiameseClu: A Siamese Clustering Framework for Interpreting single-cell RNA Sequencing Data [33.191442026962186]
単細胞RNAシークエンシング(scRNA-seq)は細胞不均一性を示す。
細胞クラスタリングは、細胞タイプとマーカー遺伝子の同定において重要な役割を担っている。
グラフニューラルネットワーク(GNN)ベースの手法はクラスタリング性能を大幅に改善した。
scSiameseCluはシングルセルRNA-seqデータを解釈するための新しいフレームワークである。
論文 参考訳(メタデータ) (2025-05-19T02:17:09Z) - A Misclassification Network-Based Method for Comparative Genomic Analysis [3.7671415694914927]
メタデータに基づくゲノム配列の分類は、数十年間、比較ゲノム学において活発な研究領域であった。
本研究では、AIとネットワークサイエンスのアプローチを統合し、比較ゲノム分析フレームワークを開発する。
論文 参考訳(メタデータ) (2024-12-09T23:22:15Z) - scBiGNN: Bilevel Graph Representation Learning for Cell Type
Classification from Single-cell RNA Sequencing Data [62.87454293046843]
グラフニューラルネットワーク(GNN)は、セルタイプの自動分類に広く利用されている。
scBiGNNは2つのGNNモジュールから構成され、細胞型を識別する。
scBiGNNは、scRNA-seqデータから細胞型分類のための様々な方法より優れている。
論文 参考訳(メタデータ) (2023-12-16T03:54:26Z) - Single-Cell Deep Clustering Method Assisted by Exogenous Gene
Information: A Novel Approach to Identifying Cell Types [50.55583697209676]
我々は,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。
クラスタリング過程において,両情報の集合を統合し,細胞と遺伝子の特徴を再構成し,識別的表現を生成する。
本研究は、細胞の特徴と分布に関する知見を高め、疾患の早期診断と治療の基礎となる。
論文 参考訳(メタデータ) (2023-11-28T09:14:55Z) - Single-cell Multi-view Clustering via Community Detection with Unknown
Number of Clusters [64.31109141089598]
シングルセルデータに適した,革新的なマルチビュークラスタリング手法である scUNC を導入する。
scUNCは、事前に定義された数のクラスタを必要とせずに、異なるビューからの情報をシームレスに統合する。
3つの異なる単一セルデータセットを用いて,SCUNCの総合評価を行った。
論文 参考訳(メタデータ) (2023-11-28T08:34:58Z) - Mixed Models with Multiple Instance Learning [51.440557223100164]
一般化線形混合モデル(GLMM)とMultiple Instance Learning(MIL)を統合するフレームワークであるMixMILを紹介する。
実験結果から,MixMILは単一セルデータセットにおいて既存のMILモデルより優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-04T16:42:42Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z) - A Novel Granular-Based Bi-Clustering Method of Deep Mining the
Co-Expressed Genes [76.84066556597342]
ビクラスタリング法は、サンプル(遺伝子)のサブセットが試験条件下で協調的に制御されるバイクラスタをマイニングするために用いられる。
残念ながら、従来の二クラスタ法はそのような二クラスタを発見するのに完全には効果がない。
本稿では,グラニュラーコンピューティングの理論を取り入れた新しい2クラスタリング手法を提案する。
論文 参考訳(メタデータ) (2020-05-12T02:04:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。