論文の概要: Clustering by Denoising: Latent plug-and-play diffusion for single-cell data
- arxiv url: http://arxiv.org/abs/2510.22835v1
- Date: Sun, 26 Oct 2025 21:03:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.385531
- Title: Clustering by Denoising: Latent plug-and-play diffusion for single-cell data
- Title(参考訳): Denoisingによるクラスタリング: 単一セルデータに対する遅延プラグアンドプレイ拡散
- Authors: Dominik Meier, Shixing Yu, Sagnik Nandy, Promit Ghosal, Kyra Gan,
- Abstract要約: 観測空間と聴覚空間を分離する潜在的なプラグアンドプレイ拡散フレームワークを導入する。
この分離は、新しいギブスサンプリング手順によって行われる。
合成と実の単細胞ゲノミクスデータによるロバスト性の評価を行った。
- 参考スコア(独自算出の注目度): 10.804074423092862
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Single-cell RNA sequencing (scRNA-seq) enables the study of cellular heterogeneity. Yet, clustering accuracy, and with it downstream analyses based on cell labels, remain challenging due to measurement noise and biological variability. In standard latent spaces (e.g., obtained through PCA), data from different cell types can be projected close together, making accurate clustering difficult. We introduce a latent plug-and-play diffusion framework that separates the observation and denoising space. This separation is operationalized through a novel Gibbs sampling procedure: the learned diffusion prior is applied in a low-dimensional latent space to perform denoising, while to steer this process, noise is reintroduced into the original high-dimensional observation space. This unique "input-space steering" ensures the denoising trajectory remains faithful to the original data structure. Our approach offers three key advantages: (1) adaptive noise handling via a tunable balance between prior and observed data; (2) uncertainty quantification through principled uncertainty estimates for downstream analysis; and (3) generalizable denoising by leveraging clean reference data to denoise noisier datasets, and via averaging, improve quality beyond the training set. We evaluate robustness on both synthetic and real single-cell genomics data. Our method improves clustering accuracy on synthetic data across varied noise levels and dataset shifts. On real-world single-cell data, our method demonstrates improved biological coherence in the resulting cell clusters, with cluster boundaries that better align with known cell type markers and developmental trajectories.
- Abstract(参考訳): 単細胞RNAシークエンシング(scRNA-seq)は細胞多様性の研究を可能にする。
しかし、クラスタリングの精度は高く、セルラベルに基づく下流の解析では、計測ノイズと生物学的変動性のために依然として困難である。
標準潜在空間(例えばPCA)では、異なるセルタイプからのデータを近接的に投影することができ、正確なクラスタリングが困難になる。
観測空間と聴覚空間を分離する潜在的なプラグアンドプレイ拡散フレームワークを導入する。
この分離は、新しいギブスサンプリング手順により操作され、学習された拡散先行を低次元の潜伏空間に印加し、この過程を制御し、ノイズを元の高次元観測空間に再導入する。
このユニークな「インプット空間ステアリング」は、デノイング軌道が元のデータ構造に忠実であることを保証する。
提案手法は,(1)先行データと観測データ間の調整可能なバランスによる適応雑音処理,(2)下流分析のための原理的不確実性推定による不確実性定量化,(3)クリーン参照データを利用してノイズを除去し,平均化することにより,トレーニングセットを超えて品質を向上させる,という3つの主要な利点を提供する。
合成と実の単細胞ゲノミクスデータにおいてロバスト性を評価する。
本手法は,様々なノイズレベルとデータセットシフトの合成データのクラスタリング精度を向上させる。
実世界の単一細胞データを用いて, 得られた細胞クラスターの生物学的コヒーレンスの向上を実証し, 既知の細胞型マーカーや発達軌道との整合性を向上するクラスタ境界について検討した。
関連論文リスト
- Data-Dependent Smoothing for Protein Discovery with Walk-Jump Sampling [7.278972126771497]
拡散モデルは、ノイズ発生過程を反復的に逆転することを学ぶことによって、生成モデルの強力なクラスとして現れてきた。
高品質なサンプルを生成する能力は、高次元画像データを超えてタンパク質のような他の複雑なドメインにまで拡張されている。
本稿では,カーネル密度推定(KDE)を前処理ステップとして利用して,各データポイントに対するノイズスケール$sigma$を推定する,データ依存スムーシングウォーク・ジャンプフレームワークを提案する。
局所的なデータ幾何をデノナイズプロセスに組み込むことで,タンパク質データの均一分布を考慮に入れた。
論文 参考訳(メタデータ) (2025-09-02T08:17:59Z) - Unlasting: Unpaired Single-Cell Multi-Perturbation Estimation by Dual Conditional Diffusion Implicit Bridges [68.98973318553983]
本稿では,Dual Diffusion Implicit Bridges (DDIB) に基づくフレームワークを提案する。
我々は、生物学的に意味のある方法で摂動シグナルを伝達するために遺伝子制御ネットワーク(GRN)情報を統合する。
また、サイレント遺伝子を予測し、生成したプロファイルの品質を向上させるためのマスキング機構も組み込んだ。
論文 参考訳(メタデータ) (2025-06-26T09:05:38Z) - Latent Noise Injection for Private and Statistically Aligned Synthetic Data Generation [7.240170769827935]
データの合成は、スケーラブルでプライバシー保護の統計分析に欠かせないものとなっている。
マスク付き自己回帰流(MAF)を用いた潜時ノイズ注入法を提案する。
トレーニングされたモデルから直接サンプリングする代わりに、我々のメソッドは潜在空間の各データポイントを摂動させ、それをデータドメインにマップします。
論文 参考訳(メタデータ) (2025-06-19T22:22:57Z) - Kernel-Smoothed Scores for Denoising Diffusion: A Bias-Variance Study [3.265950484493743]
拡散モデルは暗記しがちである。
スコアの正規化は、トレーニングデータセットのサイズを増やすのと同じ効果がある。
この視点は、拡散をデノナイズする2つの規則化機構を強調する。
論文 参考訳(メタデータ) (2025-05-28T20:22:18Z) - Collaborative Heterogeneous Causal Inference Beyond Meta-analysis [68.4474531911361]
異種データを用いた因果推論のための協調的逆確率スコア推定器を提案する。
異質性の増加に伴うメタアナリシスに基づく手法に対して,本手法は有意な改善を示した。
論文 参考訳(メタデータ) (2024-04-24T09:04:36Z) - Effective Causal Discovery under Identifiable Heteroscedastic Noise Model [45.98718860540588]
因果DAG学習は、最近精度と効率の両面で有望な性能を達成した。
本稿では,変数間のノイズ分散の変動を考慮したDAG学習のための新しい定式化を提案する。
次に、最適化の難しさに対処する効果的な2相反復DAG学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-20T08:51:58Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - Robust Inference of Manifold Density and Geometry by Doubly Stochastic
Scaling [8.271859911016719]
我々は高次元雑音下で頑健な推論のためのツールを開発する。
提案手法は, セルタイプにまたがる技術的ノイズレベルの変動に頑健であることを示す。
論文 参考訳(メタデータ) (2022-09-16T15:39:11Z) - Discriminative Singular Spectrum Classifier with Applications on
Bioacoustic Signal Recognition [67.4171845020675]
分析や分類に有用な特徴を効率的に抽出する識別機構を備えた生体音響信号分類器を提案する。
タスク指向の現在のバイオ音響認識法とは異なり、提案モデルは入力信号をベクトル部分空間に変換することに依存する。
提案法の有効性は,アヌラン,ミツバチ,蚊の3種の生物音響データを用いて検証した。
論文 参考訳(メタデータ) (2021-03-18T11:01:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。