論文の概要: Rare Genomic Subtype Discovery from RNA-seq via Autoencoder Embeddings and Stability-Aware Clustering
- arxiv url: http://arxiv.org/abs/2511.13705v1
- Date: Mon, 17 Nov 2025 18:53:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 18:52:09.692883
- Title: Rare Genomic Subtype Discovery from RNA-seq via Autoencoder Embeddings and Stability-Aware Clustering
- Title(参考訳): オートエンコーダの埋め込みと安定性を考慮したクラスタリングによるRNA-seqからのレアゲノムサブタイプ発見
- Authors: Alaa Mezghiche,
- Abstract要約: UCI "Gene Expression Cancer RNA-Seq"データセット(801のサンプル、20,531の遺伝子)では、膵臓分析により、ほぼ完全に起源の組織と整列するクラスターが否定的な制御として機能していることが示された。
我々は、上位2000個の高可変遺伝子を選択し、それらを標準化し、フィードフォワードオートエンコーダ(128次元潜在空間)を訓練し、k = 2-10でk-meansを実行する。
大域的な指標は小さいkを好むが、事前に監督された発見規則(ハンガリーのアライメント後の20種に対してジャカード>=0.60)でkをスキャンすると、k = 5で簡単な解が得られる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised learning on high-dimensional RNA-seq data can reveal molecular subtypes beyond standard labels. We combine an autoencoder-based representation with clustering and stability analysis to search for rare but reproducible genomic subtypes. On the UCI "Gene Expression Cancer RNA-Seq" dataset (801 samples, 20,531 genes; BRCA, COAD, KIRC, LUAD, PRAD), a pan-cancer analysis shows clusters aligning almost perfectly with tissue of origin (Cramer's V = 0.887), serving as a negative control. We therefore reframe the problem within KIRC (n = 146): we select the top 2,000 highly variable genes, standardize them, train a feed-forward autoencoder (128-dimensional latent space), and run k-means for k = 2-10. While global indices favor small k, scanning k with a pre-specified discovery rule (rare < 10 percent and stable with Jaccard >= 0.60 across 20 seeds after Hungarian alignment) yields a simple solution at k = 5 (silhouette = 0.129, DBI = 2.045) with a rare cluster C0 (6.85 percent of patients) that is highly stable (Jaccard = 0.787). Cluster-vs-rest differential expression (Welch's t-test, Benjamini-Hochberg FDR) identifies coherent markers. Overall, pan-cancer clustering is dominated by tissue of origin, whereas a stability-aware within-cancer approach reveals a rare, reproducible KIRC subtype.
- Abstract(参考訳): 高次元RNA-seqデータの教師なし学習は、標準ラベルを超える分子サブタイプを明らかにすることができる。
自己エンコーダに基づく表現とクラスタリングと安定性解析を組み合わせることで、希少だが再現可能なゲノムサブタイプを探索する。
UCI "Gene Expression Cancer RNA-Seq"データセット(801のサンプル、20,531の遺伝子、BRCA, COAD, KIRC, LUAD, PRAD)では、パン・カンサー分析により、ほとんど完全に起源の組織と整列するクラスター(クラマーのV = 0.887)が負の制御として機能していることが示された。
そこで、KIRC (n = 146): 上位2000個の高可変遺伝子を選択し、それらを標準化し、フィードフォワードオートエンコーダ(128次元潜在空間)を訓練し、k = 2-10 に対して k-means を実行する。
大域的な指標は小さい k を好んでいるが、k を事前に特定された発見規則(ハンガリーのアライメント後に 20 種にわたる Jaccard >= 0.60 で安定)でスキャンすると k = 5 (シルエット = 0.129, DBI = 2.045) で単純な解が得られ、C0 (患者の6.5%) は極めて安定である(ジャカード = 0.787)。
クラスタ-vs-rest差分式 (Welch's t-test, Benjamini-Hochberg FDR) はコヒーレントマーカーを同定する。
全体として、パン・カンサー・クラスタリングは起源の組織に支配されているが、安定性を意識したがん内アプローチでは、まれで再現可能なKIRCサブタイプが明らかである。
関連論文リスト
- A Multi-Evidence Framework Rescues Low-Power Prognostic Signals and Rejects Statistical Artifacts in Cancer Genomics [0.0]
我々は低出力癌コホートを解析するためのフレームワークを開発した。
我々のフレームワークは, RYR2を名目上の意義にもかかわらず偽陽性と正しく同定した。
KMT2Cは、限界的な重要性にもかかわらず、検証を必要とする複雑な候補として同定された。
論文 参考訳(メタデータ) (2025-10-21T12:27:18Z) - DNABERT-2: Fine-Tuning a Genomic Language Model for Colorectal Gene Enhancer Classification [0.0]
DNABERT-2は、DNAから可変長トークンを学習するためにバイトペアエンコーディングを使用するトランスフォーマーゲノム言語モデルである。
遺伝子エンハンサーは、いつ、どこで遺伝子がスイッチされるかを制御するが、その配列の多様性と組織特異性は、大腸癌の特定を困難にしている。
大腸癌におけるBPEトークン化を用いた第2世代のゲノム言語モデルを適用した最初の研究である。
論文 参考訳(メタデータ) (2025-09-28T16:10:03Z) - Near-Optimal Clustering in Mixture of Markov Chains [74.3828414695655]
我々は、長さ$H$の軌跡を、大きさ$S$の有限状態空間上の未知のエルゴードマルコフ鎖の1つによって生成される、$T$ trajectories of length $H$の問題を研究する。
我々は、連鎖の遷移核間の重み付きKL分散によって支配されるクラスタリングエラー率に基づいて、インスタンス依存で高い確率の低い境界を導出する。
次に,新しい2段階クラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-02T05:10:40Z) - Uncertainty-Aware Genomic Classification of Alzheimer's Disease: A Transformer-Based Ensemble Approach with Monte Carlo Dropout [0.0]
アルツハイマー病(英語版) (AD) は遺伝学的に複雑であり、ゲノムデータも複雑である。
我々はモンテカルロ・ドロップアウトを用いた変圧器を用いたアンサンブルモデル(TrUENet)を開発した。
論文 参考訳(メタデータ) (2025-05-31T18:20:49Z) - Graph Structure Learning for Tumor Microenvironment with Cell Type Annotation from non-spatial scRNA-seq data [6.432270457083369]
本稿では,細胞型予測と細胞間相互作用解析を強化する新しいグラフニューラルネットワーク(GNN)モデルを提案する。
提案したScGSLモデルは堅牢な性能を示し、平均精度84.83%、精度86.23%、リコール81.51%、F1スコア80.92%を全データセットで達成した。
論文 参考訳(メタデータ) (2025-02-04T18:28:25Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - Cancer Gene Profiling through Unsupervised Discovery [49.28556294619424]
低次元遺伝子バイオマーカーを発見するための,新しい,自動かつ教師なしのフレームワークを提案する。
本手法は,高次元中心型非監視クラスタリングアルゴリズムLP-Stabilityアルゴリズムに基づく。
私達の署名は免疫炎症および免疫砂漠の腫瘍の区別の有望な結果報告します。
論文 参考訳(メタデータ) (2021-02-11T09:04:45Z) - Classification of Schizophrenia from Functional MRI Using Large-scale
Extended Granger Causality [0.0]
大規模拡張グランジャー因果関係(lsxgc)は脳ネットワーク接続の変化を捉えることができる。
lsXGCは典型的なコントロールから統合失調症の患者を分類するためのバイオマーカーとして機能します。
統合失調症のバイオマーカーとしてのlsXGCの適用性について検討した。
論文 参考訳(メタデータ) (2021-01-12T20:36:26Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。