論文の概要: $\Gamma$-VAE: Curvature regularized variational autoencoders for
uncovering emergent low dimensional geometric structure in high dimensional
data
- arxiv url: http://arxiv.org/abs/2403.01078v1
- Date: Sat, 2 Mar 2024 03:26:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 15:16:18.198217
- Title: $\Gamma$-VAE: Curvature regularized variational autoencoders for
uncovering emergent low dimensional geometric structure in high dimensional
data
- Title(参考訳): $\Gamma$-VAE:高次元データにおける創発的低次元幾何学構造を明らかにするための曲率正規化変分オートエンコーダ
- Authors: Jason Z. Kim, Nicolas Perrin-Gilbert, Erkan Narmanli, Paul Klein,
Christopher R. Myers, Itai Cohen, Joshua J. Waterfall, James P. Sethna
- Abstract要約: 創発的な振る舞いを持つ自然系は、しばしば高次元空間の低次元部分集合に沿って構成される。
生成モデルの曲率を正規化することで、より一貫性があり、予測可能で、一般化可能なモデルを実現できることを示す。
- 参考スコア(独自算出の注目度): 0.25128687379089687
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Natural systems with emergent behaviors often organize along low-dimensional
subsets of high-dimensional spaces. For example, despite the tens of thousands
of genes in the human genome, the principled study of genomics is fruitful
because biological processes rely on coordinated organization that results in
lower dimensional phenotypes. To uncover this organization, many nonlinear
dimensionality reduction techniques have successfully embedded high-dimensional
data into low-dimensional spaces by preserving local similarities between data
points. However, the nonlinearities in these methods allow for too much
curvature to preserve general trends across multiple non-neighboring data
clusters, thereby limiting their interpretability and generalizability to
out-of-distribution data. Here, we address both of these limitations by
regularizing the curvature of manifolds generated by variational autoencoders,
a process we coin ``$\Gamma$-VAE''. We demonstrate its utility using two
example data sets: bulk RNA-seq from the The Cancer Genome Atlas (TCGA) and the
Genotype Tissue Expression (GTEx); and single cell RNA-seq from a lineage
tracing experiment in hematopoietic stem cell differentiation. We find that the
resulting regularized manifolds identify mesoscale structure associated with
different cancer cell types, and accurately re-embed tissues from completely
unseen, out-of distribution cancers as if they were originally trained on them.
Finally, we show that preserving long-range relationships to differentiated
cells separates undifferentiated cells -- which have not yet specialized --
according to their eventual fate. Broadly, we anticipate that regularizing the
curvature of generative models will enable more consistent, predictive, and
generalizable models in any high-dimensional system with emergent
low-dimensional behavior.
- Abstract(参考訳): 創発的挙動を持つ自然系はしばしば高次元空間の低次元部分集合に沿って組織される。
例えば、ヒトゲノムに数万の遺伝子があるにもかかわらず、生物学的プロセスは低次元の表現型をもたらす調整された組織に依存するため、ゲノム学の原理的な研究は実りある。
この構造を明らかにするために、多くの非線形次元減少技術は、データポイント間の局所的な類似性を保ちながら、高次元データを低次元空間に埋め込むことに成功した。
しかし、これらの手法の非線形性は、過度の曲率によって複数の非隣り合うデータクラスタの一般的な傾向を保ち、解釈可能性や分布外データへの一般化性を制限する。
ここでは、変分オートエンコーダが生成する多様体の曲率を正規化することにより、これらの制限に対処する( ``$\Gamma$-VAE'' )。
The Cancer Genome Atlas (TCGA) と Genotype tissue Expression (GTEx) のバルクRNA-seq と、造血幹細胞分化における系統追跡実験の単一細胞RNA-seq の2つの例を用いてその有用性を実証した。
得られた正則化多様体は、異なるがん細胞型に関連するメソスケール構造を同定し、組織が完全に見えない分布癌から正確に再組込みされたことを、もともとそれらに基づいて訓練されたかのように示す。
最後に、分化した細胞との長期的関係を維持することは、最終的な運命に従って、未分化の細胞を分離することを示します。
概して、生成モデルの曲率の規則化は、創発的な低次元挙動を持つ任意の高次元システムにおいて、より一貫性があり、予測可能で、一般化可能なモデルを可能にすることを期待する。
関連論文リスト
- Generating Multi-Modal and Multi-Attribute Single-Cell Counts with CFGen [76.02070962797794]
マルチモーダル単細胞数に対するフローベース条件生成モデルであるセルフロー・フォー・ジェネレーションを提案する。
本研究は, 新規な生成タスクを考慮に入れた上で, 重要な生物学的データ特性の回復性の向上を示唆するものである。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - sc-OTGM: Single-Cell Perturbation Modeling by Solving Optimal Mass Transport on the Manifold of Gaussian Mixtures [0.9674145073701153]
sc-OTGMは、scRNAseqデータが生成される誘導バイアスに基づく教師なしモデルである。
sc-OTGMは細胞状態の分類、異なる遺伝子発現の解析、標的同定のための遺伝子ランキングに有効である。
また、下流遺伝子制御に対する単一遺伝子の摂動の影響を予測し、特定の細胞状態に条件付けられた合成scRNA-seqデータを生成する。
論文 参考訳(メタデータ) (2024-05-06T06:46:11Z) - Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - Single-Cell Deep Clustering Method Assisted by Exogenous Gene
Information: A Novel Approach to Identifying Cell Types [50.55583697209676]
我々は,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。
クラスタリング過程において,両情報の集合を統合し,細胞と遺伝子の特徴を再構成し,識別的表現を生成する。
本研究は、細胞の特徴と分布に関する知見を高め、疾患の早期診断と治療の基礎となる。
論文 参考訳(メタデータ) (2023-11-28T09:14:55Z) - StyleGenes: Discrete and Efficient Latent Distributions for GANs [149.0290830305808]
GAN(Generative Adversarial Networks)のための離散潜在分布を提案する。
連続的な先行点から潜在ベクトルを描く代わりに、学習可能な潜在点の有限集合からサンプリングする。
私たちは生物の情報のエンコーディングからインスピレーションを得ます。
論文 参考訳(メタデータ) (2023-04-30T23:28:46Z) - Learning Causal Representations of Single Cells via Sparse Mechanism
Shift Modeling [3.2435888122704037]
本稿では,各摂動を未知の,しかしスパースな,潜伏変数のサブセットを標的とした介入として扱う単一細胞遺伝子発現データの深部生成モデルを提案する。
これらの手法をシミュレーションした単一セルデータ上でベンチマークし、潜伏単位回復、因果的目標同定、領域外一般化における性能を評価する。
論文 参考訳(メタデータ) (2022-11-07T15:47:40Z) - Modelling Technical and Biological Effects in scRNA-seq data with
Scalable GPLVMs [6.708052194104378]
我々は,ガウス過程潜在変数モデルである確率的非線形次元減少に対する一般的なアプローチを拡張し,大規模単一セルデータセットに拡張する。
鍵となる考え方は、高速な変動推論を可能にする下位境界の分解可能性を保存する拡張カーネルを使用することである。
論文 参考訳(メタデータ) (2022-09-14T15:25:15Z) - Intrinsic dimension estimation for discrete metrics [65.5438227932088]
本稿では,離散空間に埋め込まれたデータセットの内在次元(ID)を推定するアルゴリズムを提案する。
我々は,その精度をベンチマークデータセットで示すとともに,種鑑定のためのメダゲノミクスデータセットの分析に応用する。
このことは、列の空間の高次元性にもかかわらず、蒸発圧が低次元多様体に作用することを示唆している。
論文 参考訳(メタデータ) (2022-07-20T06:38:36Z) - A Local Similarity-Preserving Framework for Nonlinear Dimensionality
Reduction with Neural Networks [56.068488417457935]
本稿では,Vec2vecという新しい局所非線形手法を提案する。
ニューラルネットワークを訓練するために、マトリックスの近傍類似度グラフを構築し、データポイントのコンテキストを定義します。
8つの実データセットにおけるデータ分類とクラスタリングの実験により、Vec2vecは統計仮説テストにおける古典的な次元削減法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-03-10T23:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。