論文の概要: Integrating Protein Sequence and Expression Level to Analysis Molecular Characterization of Breast Cancer Subtypes
- arxiv url: http://arxiv.org/abs/2410.01755v1
- Date: Wed, 2 Oct 2024 17:05:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 15:34:04.426742
- Title: Integrating Protein Sequence and Expression Level to Analysis Molecular Characterization of Breast Cancer Subtypes
- Title(参考訳): 乳癌サブタイプの遺伝子解析におけるタンパク質配列と発現レベルの統合
- Authors: Hossein Sholehrasa,
- Abstract要約: 本研究の目的は、乳癌のサブタイプの分子的特徴を改善するために、タンパク質配列データと発現レベルを統合することである。
タンパク質配列に設計された言語モデルであるProtGPT2を用いて,タンパク質配列の機能的および構造的特性をキャプチャする埋め込みを生成する。
これらの埋め込みはタンパク質の発現レベルと統合され、強化された生物学的表現を形成し、機械学習を用いて解析した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Breast cancer's complexity and variability pose significant challenges in understanding its progression and guiding effective treatment. This study aims to integrate protein sequence data with expression levels to improve the molecular characterization of breast cancer subtypes and predict clinical outcomes. Using ProtGPT2, a language model designed for protein sequences, we generated embeddings that capture the functional and structural properties of proteins sequence. These embeddings were integrated with protein expression level to form enriched biological representations, which were analyzed using machine learning methods like ensemble K-means for clustering and XGBoost for classification. Our approach enabled successful clustering of patients into biologically distinct groups and accurately predicted clinical outcomes such as survival and biomarkers status, achieving high performance metrics, notably an F1 score of 0.88 for survival and 0.87 for biomarkers status prediction. Analysis of feature importance highlighted key proteins like KMT2C, GCN1, and CLASP2, linked to hormone receptor and Human Epidermal Growth Factor Receptor 2 (HER2) expression, which play a role in tumor progression and patient outcomes, respectively. Furthermore, protein-protein interaction networks and correlation analyses revealed the interdependence of proteins that may influence breast cancer subtype behaviors. These findings suggest that integrating protein sequence and expression data provides valuable insights into tumor biology and has significant potential to enhance personalized treatment strategies in breast cancer care.
- Abstract(参考訳): 乳がんの複雑性と変異性は、その進行を理解し、効果的な治療を導く上で大きな課題となる。
本研究は, 乳がんサブタイプの分子的特徴を改善し, 臨床結果を予測するために, タンパク質配列データと発現レベルを統合することを目的とする。
タンパク質配列に設計された言語モデルであるProtGPT2を用いて,タンパク質配列の機能的および構造的特性をキャプチャする埋め込みを生成する。
これらの埋め込みはタンパク質の発現レベルと統合され、強化された生物学的表現を形成し、クラスタリングのためのアンサンブルK平均や分類のためのXGBoostといった機械学習手法を用いて分析された。
本手法により, 生存率0.88, 生存率0.87, 生存率0.87, 生存率など, 患者を生物学的に異なるグループに分類し, 生存率やバイオマーカー状態などの臨床成績を正確に予測することができた。
KMT2C, GCN1, CLASP2などの重要なタンパク質は, ホルモン受容体とヒト表皮増殖因子受容体2(HER2)の発現に関連し, 腫瘍進行と患者の予後にそれぞれ重要な役割を担っている。
さらに、タンパク質-タンパク質相互作用ネットワークと相関解析により、乳がんのサブタイプに影響を及ぼすタンパク質の相互依存性が明らかになった。
これらの結果は, タンパク質配列と発現データの統合が腫瘍生物学の貴重な洞察を与え, 乳がん治療におけるパーソナライズされた治療戦略を強化する重要な可能性を示唆している。
関連論文リスト
- SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - Long-context Protein Language Model [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。
ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。
そこで我々は,選択的構造化状態空間モデルから構築した代替のタンパク質LMアーキテクチャであるBiMamba-Sに基づくLC-PLMを提案する。
また、第2段階のトレーニングのために、タンパク質-タンパク質相互作用グラフの文脈化を行うLC-PLM-Gも導入した。
論文 参考訳(メタデータ) (2024-10-29T16:43:28Z) - Beyond ESM2: Graph-Enhanced Protein Sequence Modeling with Efficient Clustering [24.415612744612773]
タンパク質は生命の過程に必須であり、進化と多様性を支えている。
シークエンシング技術の進歩により数百万のタンパク質が明らかにされ、生物学的分析とAI開発のための高度な事前学習されたタンパク質モデルの必要性が強調されている。
FacebookのESM2は、これまでで最も先進的なタンパク質言語モデルであり、教師なし学習にマスク付き予測タスクを活用し、顕著な生化学的精度でアミノ酸表現を作成する。
しかし、機能的なタンパク質の洞察の提供に欠けており、表現の質を高める機会を示唆している。
本研究は,タンパク質ファミリー分類をESM2のトレーニングに組み込むことにより,このギャップに対処する。
論文 参考訳(メタデータ) (2024-04-24T11:09:43Z) - Automated HER2 Scoring in Breast Cancer Images Using Deep Learning and Pyramid Sampling [3.711848341917877]
IHC-stained BC 組織像のHER2状態の自動分類にピラミッドサンプリングを用いた深層学習に基づくアプローチを提案する。
本手法は, 様々な空間スケールで形態的特徴を分析し, 計算負荷を効率的に管理し, 細胞レベルでの組織レベルでの詳細な検討を容易にする。
論文 参考訳(メタデータ) (2024-04-01T00:23:22Z) - Clustering for Protein Representation Learning [72.72957540484664]
本稿では,タンパク質の臨界成分を自動的に検出するニューラルネットワーククラスタリングフレームワークを提案する。
我々のフレームワークはタンパク質をグラフとして扱い、各ノードはアミノ酸を表し、各エッジはアミノ酸間の空間的またはシーケンシャルな接続を表す。
タンパク質の折り畳み分類, 酵素反応分類, 遺伝子期予測, 酵素コミッショニング数予測の4つの課題について検討した。
論文 参考訳(メタデータ) (2024-03-30T05:51:09Z) - One-dimensional convolutional neural network model for breast cancer
subtypes classification and biochemical content evaluation using micro-FTIR
hyperspectral images [0.0]
本研究は乳がんの亜型評価と生化学的貢献のための1次元深層学習ツールを開発した。
新しい1D畳み込みニューラルネットワークCaReNet-V1は乳癌(CA)と隣接組織(AT)を分類するために開発された
Grad-CAMの1次元適応を応用し, 生体化学的影響について検討した。
論文 参考訳(メタデータ) (2023-10-23T16:58:34Z) - hist2RNA: An efficient deep learning architecture to predict gene
expression from breast cancer histopathology images [11.822321981275232]
深層学習アルゴリズムは、デジタル病理画像中の形態パターンを効果的に抽出し、分子の表現型を迅速かつ低コストで予測することができる。
我々は,138遺伝子の発現を予測するために,バルクRNAシークエンシング技術にインスパイアされたhist2RNAという新しい計算効率の高い手法を提案する。
論文 参考訳(メタデータ) (2023-04-10T10:54:32Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - Functional Integrative Bayesian Analysis of High-dimensional
Multiplatform Genomic Data [0.8029049649310213]
我々は高次元多プラットフォームゲノミクスデータ(fiBAG)の関数積分ベイズ解析というフレームワークを提案する。
fiBAGは、プロテオゲノムバイオマーカーの上流での機能的証拠の同時同定を可能にする。
本研究は,14種類のがんのパン・カンサー解析を用いて,fiBAGの収益性を示す。
論文 参考訳(メタデータ) (2022-12-29T03:31:45Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。