論文の概要: Count Bridges enable Modeling and Deconvolving Transcriptomic Data
- arxiv url: http://arxiv.org/abs/2603.04730v1
- Date: Thu, 05 Mar 2026 02:09:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.029343
- Title: Count Bridges enable Modeling and Deconvolving Transcriptomic Data
- Title(参考訳): Count Bridgesはトランスクリプトデータのモデリングとデコンボリュートを可能にする
- Authors: Nic Fishman, Gokul Gowri, Tanush Kumar, Jiaqi Lu, Valentin de Bortoli, Jonathan S. Gootenberg, Omar Abudayyeh,
- Abstract要約: 数値データに対する拡散型モデルの正確なアナログを提供する整数上のプロセスであるCount Bridgesを紹介する。
我々はこのフレームワークを拡張して、単位レベルの数を潜伏変数として扱う期待-最大化スタイルのアプローチを通じて、集約された測定から直接のトレーニングを可能にする。
- 参考スコア(独自算出の注目度): 11.719740585969886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many modern biological assays, including RNA sequencing, yield integer-valued counts that reflect the number of molecules detected. These measurements are often not at the desired resolution: while the unit of interest is typically a single cell, many measurement technologies produce counts aggregated over sets of cells. Although recent generative frameworks such as diffusion and flow matching have been extended to non-Euclidean and discrete settings, it remains unclear how best to model integer-valued data or how to systematically deconvolve aggregated observations. We introduce Count Bridges, a stochastic bridge process on the integers that provides an exact, tractable analogue of diffusion-style models for count data, with closed-form conditionals for efficient training and sampling. We extend this framework to enable direct training from aggregated measurements via an Expectation-Maximization-style approach that treats unit-level counts as latent variables. We demonstrate state-of-the-art performance on integer distribution matching benchmarks, comparing against flow matching and discrete flow matching baselines across various metrics. We then apply Count Bridges to two large-scale problems in biology: modeling single-cell gene expression data at the nucleotide resolution, with applications to deconvolving bulk RNA-seq, and resolving multicellular spatial transcriptomic spots into single-cell count profiles. Our methods offer a principled foundation for generative modeling and deconvolution of biological count data across scales and modalities.
- Abstract(参考訳): RNAシークエンシングを含む多くの現代の生物学的アッセイは、検出された分子の数を反映した整数値のカウントを生成する。
これらの測定は、通常単細胞であるが、多くの測定技術は、セルの集合に集約された数を生成する。
拡散やフローマッチングといった最近の生成フレームワークは、非ユークリッドや離散的な設定にまで拡張されているが、整数値のデータをどのようにモデル化するか、あるいは集約された観測を体系的に分解するかは定かではない。
本稿では,数値データに対する拡散型モデルの正確な類似点を提供する,整数上の確率的ブリッジプロセスであるCount Bridgesを紹介し,効率的なトレーニングとサンプリングのためのクローズドフォーム条件について述べる。
我々はこのフレームワークを拡張して、単位レベルの数を潜伏変数として扱う期待-最大化スタイルのアプローチを通じて、集約された測定から直接のトレーニングを可能にする。
本稿では,整数分布マッチングベンチマークにおける現状性能を,様々な指標のフローマッチングと離散フローマッチングベースラインと比較する。
次に,2つの大規模生物学問題に適用する:ヌクレオチド分解における単一細胞遺伝子発現データのモデリング,バルクRNA-seqの解離への応用,および多細胞空間転写スポットを単一細胞カウントプロファイルに分解する。
本手法は, 生物数データの生成モデルとデコンボリューションを, スケール, モダリティにまたがる基本的基盤を提供する。
関連論文リスト
- Parameter-free representations outperform single-cell foundation models on downstream benchmarks [0.0]
シングルセルRNAシークエンシング(scRNA-seq)データは、強く再現可能な統計構造を示す。
TranscriptFormerのような大規模基盤モデルは、潜在ベクトル空間に遺伝子を埋め込むことで遺伝子発現の生成モデルを学ぶ。
計算集約的な深層学習に基づく表現を使わずに、類似のパフォーマンスが達成できるかどうかを問う。
論文 参考訳(メタデータ) (2026-02-18T18:42:29Z) - ScDiVa: Masked Discrete Diffusion for Joint Modeling of Single-Cell Identity and Expression [24.508523704467695]
シングルセルRNA-seqプロファイルは高次元、スパース、非秩序であり、自己回帰生成は人工的な秩序バイアスを課す。
そこで我々は,ScDiVaをマスク付き離散拡散基礎モデルとして提案する。
論文 参考訳(メタデータ) (2026-02-03T12:50:29Z) - Large-scale EM Benchmark for Multi-Organelle Instance Segmentation in the Wild [8.670858548670742]
本研究では, 多様なセルタイプにまたがる10万以上の2次元EM画像と, 実世界の変動を捉えた5つのオルガネラクラスからなる, マルチオルガネラインスタンスセグメンテーションのベンチマークを開発する。
現在のモデルでは、異種EMデータの一般化に苦慮し、グローバルな分散形態を持つオルガネラでは性能が悪くなっている。
これらの知見は,局所文脈モデルと実世界の変動性の存在下での長距離構造的連続性をモデル化する課題との根本的なミスマッチを浮き彫りにした。
論文 参考訳(メタデータ) (2026-01-18T16:09:27Z) - Departures: Distributional Transport for Single-Cell Perturbation Prediction with Neural Schrödinger Bridges [51.83259180910313]
遺伝子機能解析における大きなボトルネックは、単細胞データの未成熟の性質である。
我々は、SB(Schrdinger Bridge)を近似して、単セル摂動データに対処する。
本モデルは,異種単一セル応答を効果的に捉え,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-11-17T08:27:13Z) - Unlasting: Unpaired Single-Cell Multi-Perturbation Estimation by Dual Conditional Diffusion Implicit Bridges [68.98973318553983]
本稿では,Dual Diffusion Implicit Bridges (DDIB) に基づくフレームワークを提案する。
我々は、生物学的に意味のある方法で摂動シグナルを伝達するために遺伝子制御ネットワーク(GRN)情報を統合する。
また、サイレント遺伝子を予測し、生成したプロファイルの品質を向上させるためのマスキング機構も組み込んだ。
論文 参考訳(メタデータ) (2025-06-26T09:05:38Z) - Stochastic gradient descent estimation of generalized matrix factorization models with application to single-cell RNA sequencing data [39.146761527401424]
単細胞RNAシークエンシングは、個々の細胞レベルでの遺伝子発現の定量化を可能にする。
次元の減少は、サンプルの可視化、クラスタリング、表現型特徴付けに不可欠な一般的な前処理ステップである。
一般指数分散族分布を仮定した一般化行列分解モデルを提案する。
提案手法は, 数百万セルにシームレスに拡張可能であることを示し, 大規模単一セルデータセットの次元性低減を実現する。
論文 参考訳(メタデータ) (2024-12-29T16:02:15Z) - Meta Flow Matching: Integrating Vector Fields on the Wasserstein Manifold [83.18058549195855]
自然科学における複数の過程は、確率密度のワッサーシュタイン多様体上のベクトル場として表さなければならない。
特に、疾患の発生とその治療反応が患者固有の細胞の微小環境に依存するパーソナライズド医療において重要である。
本稿では,初期個体群上の流れモデルを改善することで,ワッサーシュタイン多様体上のこれらのベクトル場と一体化するためのメタフローマッチング(MFM)を提案する。
論文 参考訳(メタデータ) (2024-08-26T20:05:31Z) - Multi-Modal and Multi-Attribute Generation of Single Cells with CFGen [76.02070962797794]
本研究では、単一セルデータ固有の離散性を保存するフローベースの条件生成モデルであるCellFlow for Generation (CFGen)を紹介する。
CFGenは、全ゲノムマルチモーダル単一セルデータを確実に生成し、重要な生物学的データ特性の回復を改善する。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - Generative inpainting of incomplete Euclidean distance matrices of trajectories generated by a fractional Brownian motion [46.1232919707345]
フラクショナルブラウン運動(fBm)はランダム性と強いスケールフリーの相関を特徴とする。
本稿では, 劣化した画像の特定のデータセット上で, 拡散に基づく塗布方法の動物園について検討する。
条件拡散生成は、異なるメモリ状態におけるfBmパスの組込み相関を容易に再現する。
論文 参考訳(メタデータ) (2024-04-10T14:22:16Z) - Estimating Unknown Population Sizes Using the Hypergeometric Distribution [1.03590082373586]
総人口と構成カテゴリーの規模が不明な場合, 個別分布の推定に挑戦する。
本研究では,連続潜伏変数上での分布条件の混合となるデータ生成過程について考察する。
実験データシミュレーションにより,本手法は数値データをモデル化する他の可能性関数よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-02-22T01:53:56Z) - Generalized Matrix Factorization: efficient algorithms for fitting
generalized linear latent variable models to large data arrays [62.997667081978825]
一般化線形潜在変数モデル(GLLVM)は、そのような因子モデルを非ガウス応答に一般化する。
GLLVMのモデルパラメータを推定する現在のアルゴリズムは、集約的な計算を必要とし、大規模なデータセットにスケールしない。
本稿では,GLLVMを高次元データセットに適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-06T04:28:19Z) - Graph Gamma Process Generalized Linear Dynamical Systems [60.467040479276704]
実マルチ変数時系列をモデル化するために,グラフガンマ過程(GGP)線形力学系を導入する。
時間的パターン発見のために、モデルの下での潜在表現は、時系列を多変量部分列の同相集合に分解するために使用される。
非零次ノード数が有限であるランダムグラフを用いて、潜時状態遷移行列の空間パターンと次元の両方を定義する。
論文 参考訳(メタデータ) (2020-07-25T04:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。