論文の概要: Generative Distribution Embeddings
- arxiv url: http://arxiv.org/abs/2505.18150v1
- Date: Fri, 23 May 2025 17:58:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.267269
- Title: Generative Distribution Embeddings
- Title(参考訳): ジェネレーティブ・ディストリクト・埋め込み
- Authors: Nic Fishman, Gokul Gowri, Peng Yin, Jonathan Gootenberg, Omar Abudayyeh,
- Abstract要約: 本稿では,自動エンコーダを分散空間に引き上げるフレームワークである生成分布埋め込み(GDE)を紹介する。
GDEでは、エンコーダがサンプルの集合に作用し、デコーダは入力分布にマッチするジェネレータに置き換えられる。
GDEを計算生物学の6つの重要な問題に適用する。
- 参考スコア(独自算出の注目度): 1.3252809892089024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many real-world problems require reasoning across multiple scales, demanding models which operate not on single data points, but on entire distributions. We introduce generative distribution embeddings (GDE), a framework that lifts autoencoders to the space of distributions. In GDEs, an encoder acts on sets of samples, and the decoder is replaced by a generator which aims to match the input distribution. This framework enables learning representations of distributions by coupling conditional generative models with encoder networks which satisfy a criterion we call distributional invariance. We show that GDEs learn predictive sufficient statistics embedded in the Wasserstein space, such that latent GDE distances approximately recover the $W_2$ distance, and latent interpolation approximately recovers optimal transport trajectories for Gaussian and Gaussian mixture distributions. We systematically benchmark GDEs against existing approaches on synthetic datasets, demonstrating consistently stronger performance. We then apply GDEs to six key problems in computational biology: learning representations of cell populations from lineage-tracing data (150K cells), predicting perturbation effects on single-cell transcriptomes (1M cells), predicting perturbation effects on cellular phenotypes (20M single-cell images), modeling tissue-specific DNA methylation patterns (253M sequences), designing synthetic yeast promoters (34M sequences), and spatiotemporal modeling of viral protein sequences (1M sequences).
- Abstract(参考訳): 多くの実世界の問題は、複数のスケールにわたる推論を必要とし、単一のデータポイントではなく、分散全体で動作するモデルを要求する。
本稿では,自動エンコーダを分散空間に引き上げるフレームワークである生成分布埋め込み(GDE)を紹介する。
GDEでは、エンコーダがサンプルの集合に作用し、デコーダは入力分布にマッチするジェネレータに置き換えられる。
このフレームワークは、分布不変性と呼ばれる基準を満たすエンコーダネットワークと条件生成モデルを組み合わせることで、分布の表現の学習を可能にする。
GDEはワッサーシュタイン空間に埋め込まれた十分な予測統計を学習し、潜時GDE距離がおよそ$W_2$距離を回復し、潜時補間がガウス分布とガウス混合分布の最適輸送軌跡をほぼ回復することを示す。
我々は、GDEを既存の合成データセットのアプローチに対して体系的にベンチマークし、一貫して強い性能を示す。
次に、GDEを、系統追跡データ(150K細胞)からの細胞集団の表現の学習、単一細胞トランスクリプトーム(1M細胞)に対する摂動効果の予測、細胞表現型(20M単細胞画像)に対する摂動効果の予測、組織特異的DNAメチル化パターン(253M配列)のモデリング、合成酵母プロモーター(34M配列)の設計、ウイルスタンパク質配列(1M配列)の時空間モデリングの6つの主要な問題に適用する。
関連論文リスト
- Fine-Tuning Discrete Diffusion Models via Reward Optimization with Applications to DNA and Protein Design [56.957070405026194]
拡散モデルにより生成された軌道全体を通して報酬の直接バックプロパゲーションを可能にするアルゴリズムを提案する。
DRAKESは自然に似ており、高い報酬をもたらすシーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-10-17T15:10:13Z) - Bellman Diffusion: Generative Modeling as Learning a Linear Operator in the Distribution Space [72.52365911990935]
本稿では,MDPの線形性を維持する新しいDGMフレームワークであるBellman Diffusionを紹介する。
この結果から,ベルマン拡散は分布RLタスクにおける従来のヒストグラムベースベースラインよりも1.5倍高速に収束し,精度の高い画像生成装置であることがわかった。
論文 参考訳(メタデータ) (2024-10-02T17:53:23Z) - Scalable Amortized GPLVMs for Single Cell Transcriptomics Data [9.010523724015398]
大規模単細胞RNA-seqデータの解析には次元化が不可欠である。
改良されたモデル、償却変分モデル(BGPLVM)を導入する。
BGPLVMは、特殊なエンコーダ、カーネル、そして可能性設計を備えたシングルセルRNA-seq向けに調整されている。
論文 参考訳(メタデータ) (2024-05-06T21:54:38Z) - sc-OTGM: Single-Cell Perturbation Modeling by Solving Optimal Mass Transport on the Manifold of Gaussian Mixtures [0.9674145073701153]
sc-OTGMは、scRNAseqデータが生成される誘導バイアスに基づく教師なしモデルである。
sc-OTGMは細胞状態の分類、異なる遺伝子発現の解析、標的同定のための遺伝子ランキングに有効である。
また、下流遺伝子制御に対する単一遺伝子の摂動の影響を予測し、特定の細胞状態に条件付けられた合成scRNA-seqデータを生成する。
論文 参考訳(メタデータ) (2024-05-06T06:46:11Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - Gaussian Mixture Solvers for Diffusion Models [84.83349474361204]
本稿では,拡散モデルのためのGMSと呼ばれる,SDEに基づく新しい解法について紹介する。
画像生成およびストロークベース合成におけるサンプル品質の観点から,SDEに基づく多くの解法よりも優れる。
論文 参考訳(メタデータ) (2023-11-02T02:05:38Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Efficient Integrators for Diffusion Generative Models [22.01769257075573]
拡散モデルは、推論時に遅いサンプル生成に悩まされる。
事前学習モデルにおけるサンプル生成を高速化するための2つの補完的フレームワークを提案する。
本稿では,拡張空間における拡散モデルにおける最良報告性能を実現するハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2023-10-11T21:04:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。