論文の概要: TwinPurify: Purifying gene expression data to reveal tumor-intrinsic transcriptional programs via self-supervised learning
- arxiv url: http://arxiv.org/abs/2601.18640v1
- Date: Mon, 26 Jan 2026 16:11:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.926864
- Title: TwinPurify: Purifying gene expression data to reveal tumor-intrinsic transcriptional programs via self-supervised learning
- Title(参考訳): TwinPurify:自己教師型学習による腫瘍原性転写プログラムを明らかにするための遺伝子発現データの精製
- Authors: Zhiwei Zheng, Kevin Bryson,
- Abstract要約: 本稿では,Barlow Twinsの自己指導目的に適応する表現学習フレームワークであるTwinPurifyを紹介する。
バルク混合物を個別の細胞型分画に分解する代わりに、TwinPurifyは連続した高次元の腫瘍の埋め込みを学習する。
- 参考スコア(独自算出の注目度): 4.742294289533828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in single-cell and spatial transcriptomic technologies have transformed tumor ecosystem profiling at cellular resolution. However, large scale studies on patient cohorts continue to rely on bulk transcriptomic data, where variation in tumor purity obscures tumor-intrinsic transcriptional signals and constrains downstream discovery. Many deconvolution methods report strong performance on synthetic bulk mixtures but fail to generalize to real patient cohorts because of unmodeled biological and technical variation. Here, we introduce TwinPurify, a representation learning framework that adapts the Barlow Twins self-supervised objective, representing a fundamental departure from the deconvolution paradigm. Rather than resolving the bulk mixture into discrete cell-type fractions, TwinPurify instead learns continuous, high-dimensional tumor embeddings by leveraging adjacent-normal profiles within the same cohort as "background" guidance, enabling the disentanglement of tumor-specific signals without relying on any external reference. Benchmarked against multiple large cancer cohorts across RNA-seq and microarray platforms, TwinPurify outperforms conventional representation learning baselines like auto-encoders in recovering tumor-intrinsic and immune signals. The purified embeddings improve molecular subtype and grade classification, enhance survival model concordance, and uncover biologically meaningful pathway activities compared to raw bulk profiles. By providing a transferable framework for decontaminating bulk transcriptomics, TwinPurify extends the utility of existing clinical datasets for molecular discovery.
- Abstract(参考訳): 単一細胞および空間転写技術の進歩は、細胞の分解能において腫瘍エコシステムのプロファイリングを変容させた。
しかし、患者のコホートに関する大規模な研究は、腫瘍の純度の変化が腫瘍固有の転写シグナルを曖昧にし、下流での発見を制約するバルク転写データに依存し続けている。
多くのデコンボリューション法は、合成バルク混合物に強い性能を示すが、非モデル化された生物学的および技術的変異のため、実際の患者コホートに一般化できない。
本稿では,Barlow Twinsの自己指導的目標に適応する表現学習フレームワークであるTwinPurifyを紹介する。
バルク混合物を個別の細胞型分画に分解する代わりに、TwinPurifyは、同じコホート内の隣り合う正規プロファイルを"背景"誘導として活用することで、外部参照に頼ることなく腫瘍特異的信号の切断を可能にすることで、連続した高次元の腫瘍埋め込みを学習する。
TwinPurifyはRNA-seqおよびマイクロアレイプラットフォームにまたがる複数の大きながんコホートに対してベンチマークされ、腫瘍原性および免疫シグナルの回復においてオートエンコーダのような従来の表現学習ベースラインを上回っている。
精製された埋め込みは、分子サブタイプおよびグレード分類を改善し、生存モデル適合性を高め、生のバルクプロファイルと比較して生物学的に有意義な経路活性を明らかにする。
TwinPurifyは、バルク転写学を除染するための移行可能なフレームワークを提供することで、既存の臨床データセットの分子発見の有用性を拡張している。
関連論文リスト
- PEaRL: Pathway-Enhanced Representation Learning for Gene and Pathway Expression Prediction from Histology [8.879502752288325]
本稿では PEaRL (Pathway Enhanced Representation Learning) について述べる。
3つのがんSTデータセット全体でPEaRLはSOTA法を一貫して上回り、遺伝子レベルでの発現予測と経路レベルでの表現予測の精度が向上した。
論文 参考訳(メタデータ) (2025-10-03T19:21:23Z) - MS-ConTab: Multi-Scale Contrastive Learning of Mutation Signatures for Pan Cancer Representation and Stratification [0.0]
43種類のがんをクラスタリングするための非教師なしコントラスト学習フレームワークを新たに導入する。
がんの種類ごとに2つの相補的な突然変異の署名を構築した。
得られた潜在表現が生物学的に有意ながんの集団を生じることを示す。
論文 参考訳(メタデータ) (2025-08-26T20:42:20Z) - Unlasting: Unpaired Single-Cell Multi-Perturbation Estimation by Dual Conditional Diffusion Implicit Bridges [68.98973318553983]
本稿では,Dual Diffusion Implicit Bridges (DDIB) に基づくフレームワークを提案する。
我々は、生物学的に意味のある方法で摂動シグナルを伝達するために遺伝子制御ネットワーク(GRN)情報を統合する。
また、サイレント遺伝子を予測し、生成したプロファイルの品質を向上させるためのマスキング機構も組み込んだ。
論文 参考訳(メタデータ) (2025-06-26T09:05:38Z) - TransST: Transfer Learning Embedded Spatial Factor Modeling of Spatial Transcriptomics Data [13.71468013489106]
本稿では,細胞ラベル情報を外部ソースから適応的に活用するトランスファー学習フレームワーク(TransST)を提案する。
本研究は,TransSTが細胞サブクラスタの同定と,空間転写学データにおける対応する生体マーカーの検出に有効かつ堅牢であることを示す。
論文 参考訳(メタデータ) (2025-04-15T22:03:38Z) - Block Graph Neural Networks for tumor heterogeneity prediction [0.3611754783778107]
正確な腫瘍分類は有効な治療法の選択に不可欠である。
標準腫瘍グレーディングは、細胞分化に基づく腫瘍を分類するが、スタンドアロンの処置としては推奨されない。
腫瘍の進化をシミュレートし,腫瘍分類のための人工データセットを生成する数学的モデルを構築することを提案する。
論文 参考訳(メタデータ) (2025-02-08T05:48:09Z) - Multi-Modal and Multi-Attribute Generation of Single Cells with CFGen [76.02070962797794]
本研究では、単一セルデータ固有の離散性を保存するフローベースの条件生成モデルであるCellFlow for Generation (CFGen)を紹介する。
CFGenは、全ゲノムマルチモーダル単一セルデータを確実に生成し、重要な生物学的データ特性の回復を改善する。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - Single-Cell Deep Clustering Method Assisted by Exogenous Gene
Information: A Novel Approach to Identifying Cell Types [50.55583697209676]
我々は,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。
クラスタリング過程において,両情報の集合を統合し,細胞と遺伝子の特徴を再構成し,識別的表現を生成する。
本研究は、細胞の特徴と分布に関する知見を高め、疾患の早期診断と治療の基礎となる。
論文 参考訳(メタデータ) (2023-11-28T09:14:55Z) - Tertiary Lymphoid Structures Generation through Graph-based Diffusion [54.37503714313661]
本研究では,最先端のグラフベース拡散モデルを用いて生物学的に意味のある細胞グラフを生成する。
本研究では, グラフ拡散モデルを用いて, 3次リンパ構造(TLS)の分布を正確に学習できることを示す。
論文 参考訳(メタデータ) (2023-10-10T14:37:17Z) - CausalBench: A Large-scale Benchmark for Network Inference from
Single-cell Perturbation Data [61.088705993848606]
本稿では,実世界の介入データに対する因果推論手法を評価するベンチマークスイートCausalBenchを紹介する。
CaulBenchには、新しい分散ベースの介入メトリクスを含む、生物学的に動機付けられたパフォーマンスメトリクスが含まれている。
論文 参考訳(メタデータ) (2022-10-31T13:04:07Z) - Modelling Technical and Biological Effects in scRNA-seq data with
Scalable GPLVMs [6.708052194104378]
我々は,ガウス過程潜在変数モデルである確率的非線形次元減少に対する一般的なアプローチを拡張し,大規模単一セルデータセットに拡張する。
鍵となる考え方は、高速な変動推論を可能にする下位境界の分解可能性を保存する拡張カーネルを使用することである。
論文 参考訳(メタデータ) (2022-09-14T15:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。