論文の概要: Transformer-Based Representation Learning for Robust Gene Expression Modeling and Cancer Prognosis
- arxiv url: http://arxiv.org/abs/2504.09704v1
- Date: Sun, 13 Apr 2025 19:49:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:54:26.625909
- Title: Transformer-Based Representation Learning for Robust Gene Expression Modeling and Cancer Prognosis
- Title(参考訳): 癌予後とロバスト遺伝子発現モデリングのためのトランスフォーマーに基づく表現学習
- Authors: Shuai Jiang, Saeed Hassanpour,
- Abstract要約: 本稿では、遺伝子発現データの堅牢な表現学習のためのトランスフォーマーベースのオートエンコーダフレームワークであるGexBERTを提案する。
GexBERTは、大規模転写プロファイルを事前学習することで、文脈認識遺伝子埋め込みを学習する。
限られた遺伝子サブセットから最先端の分類精度を達成し、予後アンカー遺伝子の発現を回復させることで生存予測を改善し、欠失率の高い従来の計算方法より優れている。
- 参考スコア(独自算出の注目度): 3.782770832189636
- License:
- Abstract: Transformer-based models have achieved remarkable success in natural language and vision tasks, but their application to gene expression analysis remains limited due to data sparsity, high dimensionality, and missing values. We present GexBERT, a transformer-based autoencoder framework for robust representation learning of gene expression data. GexBERT learns context-aware gene embeddings by pretraining on large-scale transcriptomic profiles with a masking and restoration objective that captures co-expression relationships among thousands of genes. We evaluate GexBERT across three critical tasks in cancer research: pan-cancer classification, cancer-specific survival prediction, and missing value imputation. GexBERT achieves state-of-the-art classification accuracy from limited gene subsets, improves survival prediction by restoring expression of prognostic anchor genes, and outperforms conventional imputation methods under high missingness. Furthermore, its attention-based interpretability reveals biologically meaningful gene patterns across cancer types. These findings demonstrate the utility of GexBERT as a scalable and effective tool for gene expression modeling, with translational potential in settings where gene coverage is limited or incomplete.
- Abstract(参考訳): トランスフォーマーベースのモデルは、自然言語や視覚タスクにおいて顕著な成功を収めてきたが、その遺伝子発現解析への応用は、データの空間性、高次元性、欠落値によって制限されている。
本稿では、遺伝子発現データの堅牢な表現学習のためのトランスフォーマーベースのオートエンコーダフレームワークであるGexBERTを提案する。
GexBERTは、何千もの遺伝子間の共発現関係をキャプチャするマスキングと復元の目的を用いて、大規模な転写プロファイルを事前訓練することで、文脈認識の遺伝子埋め込みを学習する。
我々はGexBERTを,癌研究における3つの重要な課題 – 膵癌分類,癌特異的生存予測,および値計算の欠如 – で評価した。
GexBERTは、限られた遺伝子サブセットから最先端の分類精度を達成し、予後アンカー遺伝子の発現を回復させることで生存予測を改善し、欠失率の高い従来の計算方法より優れている。
さらに、その注意に基づく解釈性は、癌の種類にまたがる生物学的に意味のある遺伝子パターンを明らかにする。
これらの結果から,GexBERTは遺伝子発現モデリングのスケーラブルで効果的なツールであり,遺伝子カバレッジが制限されたり不完全であったりした場合の翻訳の可能性を示した。
関連論文リスト
- Learning to Discover Regulatory Elements for Gene Expression Prediction [59.470991831978516]
Seq2Expは、ターゲット遺伝子発現を駆動する制御要素を発見し、抽出するために設計されたSequence to Expressionネットワークである。
本手法は, エピジェノミックシグナル, DNA 配列とその関連因子の因果関係を捉える。
論文 参考訳(メタデータ) (2025-02-19T03:25:49Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Precision Cancer Classification and Biomarker Identification from mRNA Gene Expression via Dimensionality Reduction and Explainable AI [0.9423257767158634]
本研究では,33種類の異なる癌とその対応する遺伝子群を正確に同定するための包括的パイプラインを提案する。
正規化と特徴選択技術を組み合わせて、データセットの次元性を効果的に削減する。
我々はExplainable AIを利用して、同定された癌特異的遺伝子の生物学的意義を解明する。
論文 参考訳(メタデータ) (2024-10-08T18:56:31Z) - Predicting Genetic Mutation from Whole Slide Images via Biomedical-Linguistic Knowledge Enhanced Multi-label Classification [119.13058298388101]
遺伝子変異予測性能を向上させるため,生物知識を付加したPathGenomic Multi-label Transformerを開発した。
BPGTはまず、2つの慎重に設計されたモジュールによって遺伝子前駆体を構成する新しい遺伝子エンコーダを確立する。
BPGTはその後ラベルデコーダを設計し、最終的に2つの調整されたモジュールによる遺伝的突然変異予測を行う。
論文 参考訳(メタデータ) (2024-06-05T06:42:27Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Accurate Spatial Gene Expression Prediction by integrating Multi-resolution features [0.0]
TRIPLEXは全スライド画像(WSI)から空間的遺伝子発現を予測するための新しいディープラーニングフレームワーク
3つのパブリックSTデータセットを用いて行ったベンチマーク研究により、TRIPLEXはMean Squared Error(MSE)、Mean Absolute Error(MAE)、Pearson correlation Coefficient(PCC)において、現在の最先端モデルよりも優れていることが示された。
このモデルの予測は、がんの診断と治療の進歩におけるTRIPLEXのポテンシャルを裏付ける、基底真理遺伝子発現プロファイルや腫瘍アノテーションと密接に一致している。
論文 参考訳(メタデータ) (2024-03-12T12:25:38Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - Breast Cancer Histopathology Image based Gene Expression Prediction
using Spatial Transcriptomics data and Deep Learning [3.583756449759971]
本稿では,病理組織像から遺伝子発現を予測するためのディープラーニングフレームワークBrST-Netを提案する。
我々は,250遺伝子の予測に事前訓練した重みを使わずに10種類の最先端ディープラーニングモデルを訓練し,評価した。
本手法は,0.50以上の正相関係数を持つ24遺伝子を含む237遺伝子を同定し,過去の研究より優れていた。
論文 参考訳(メタデータ) (2023-03-17T14:03:40Z) - Machine Learning Methods for Cancer Classification Using Gene Expression
Data: A Review [77.34726150561087]
がんは心臓血管疾患の2番目の死因である。
遺伝子発現は癌の早期発見において基本的な役割を担っている。
本研究は,機械学習を用いた癌分類における遺伝子発現解析の最近の進歩を概説する。
論文 参考訳(メタデータ) (2023-01-28T15:03:03Z) - Attention-based Interpretable Regression of Gene Expression in Histology [0.0]
深層学習の解釈可能性は、医用画像モデルの信頼性を評価するために広く利用されている。
腫瘍組織の顕微な外観と遺伝子発現のプロファイリングとの関連性を明らかにする。
論文 参考訳(メタデータ) (2022-08-29T07:30:33Z) - Low-Rank Reorganization via Proportional Hazards Non-negative Matrix
Factorization Unveils Survival Associated Gene Clusters [9.773075235189525]
この研究において、Cox比例ハザードの回帰は生存制約を課すことでNMFと統合される。
ヒト癌遺伝子の発現データを用いて、提案手法は癌遺伝子の重要なクラスターを解明することができる。
発見された遺伝子クラスターは、豊富な生物学的含意を反映し、生存に関連するバイオマーカーの同定に役立つ。
論文 参考訳(メタデータ) (2020-08-09T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。