論文の概要: SubOmiEmbed: Self-supervised Representation Learning of Multi-omics Data
for Cancer Type Classification
- arxiv url: http://arxiv.org/abs/2202.01672v1
- Date: Thu, 3 Feb 2022 16:39:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-04 16:40:28.110771
- Title: SubOmiEmbed: Self-supervised Representation Learning of Multi-omics Data
for Cancer Type Classification
- Title(参考訳): SubOmiEmbed:癌型分類のためのマルチオミクスデータの自己教師付き表現学習
- Authors: Sayed Hashim, Muhammad Ali, Karthik Nandakumar, Mohammad Yaqub
- Abstract要約: マルチオミクスデータの統合と解析により腫瘍の広い視野が得られ,臨床診断の精度が向上する。
SubOmiEmbedは、非常に小さなネットワークを持つベースラインであるOmiEmbedに匹敵する結果を生成する。
この作業は、突然変異に基づくゲノムデータを統合するために改善される。
- 参考スコア(独自算出の注目度): 4.992154875028543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For personalized medicines, very crucial intrinsic information is present in
high dimensional omics data which is difficult to capture due to the large
number of molecular features and small number of available samples. Different
types of omics data show various aspects of samples. Integration and analysis
of multi-omics data give us a broad view of tumours, which can improve clinical
decision making. Omics data, mainly DNA methylation and gene expression
profiles are usually high dimensional data with a lot of molecular features. In
recent years, variational autoencoders (VAE) have been extensively used in
embedding image and text data into lower dimensional latent spaces. In our
project, we extend the idea of using a VAE model for low dimensional latent
space extraction with the self-supervised learning technique of feature
subsetting. With VAEs, the key idea is to make the model learn meaningful
representations from different types of omics data, which could then be used
for downstream tasks such as cancer type classification. The main goals are to
overcome the curse of dimensionality and integrate methylation and expression
data to combine information about different aspects of same tissue samples, and
hopefully extract biologically relevant features. Our extension involves
training encoder and decoder to reconstruct the data from just a subset of it.
By doing this, we force the model to encode most important information in the
latent representation. We also added an identity to the subsets so that the
model knows which subset is being fed into it during training and testing. We
experimented with our approach and found that SubOmiEmbed produces comparable
results to the baseline OmiEmbed with a much smaller network and by using just
a subset of the data. This work can be improved to integrate mutation-based
genomic data as well.
- Abstract(参考訳): パーソナライズされた医学では、非常に重要な内在的な情報が高次元のオミクスデータに存在し、多くの分子的特徴と少量のサンプルのために捕捉することが困難である。
様々な種類のオミクスデータがサンプルの様々な側面を示している。
マルチオミクスデータの統合と分析により、腫瘍の広い視野が得られ、臨床意思決定が改善される。
主にDNAメチル化と遺伝子発現プロファイルは、多くの分子的特徴を持つ高次元のデータである。
近年,画像やテキストデータを低次元の潜在空間に埋め込む際に,変分オートエンコーダ(VAE)が広く用いられている。
本プロジェクトでは,特徴分割の自己教師あり学習手法を用いて,低次元潜在空間抽出にvaeモデルを用いるアイデアを拡張した。
VAEでは、モデルに異なる種類のオミクスデータから有意義な表現を学習させ、がんのタイプ分類のような下流のタスクに使用できるようにすることが重要となる。
主な目標は、次元の呪いを克服し、メチル化と発現データを統合し、同じ組織サンプルの異なる側面に関する情報を結合し、生物学的に関連のある特徴を抽出することである。
私たちの拡張では、エンコーダとデコーダをトレーニングして、そのサブセットからデータを再構築しています。
これを行うことで、潜在表現において最も重要な情報をモデルにエンコードさせます。
また、トレーニングやテスト中にどのサブセットが供給されているかをモデルが知るように、サブセットにアイデンティティを追加しました。
実験を行った結果,subomiembedは,より小さなネットワークと,データのサブセットのみを使用することで,ベースラインに匹敵する結果が得られることが分かった。
この作業は、突然変異に基づくゲノムデータを統合するために改善される。
関連論文リスト
- Multi-Domain Data Aggregation for Axon and Myelin Segmentation in Histology Images [0.5825410941577593]
組織像における軸索とミエリンの性質の定量化は、神経変性疾患による微細構造変化に関する有用な情報を提供することができる。
ディープラーニングの進歩により、このタスクは最小限のオーバーヘッドで迅速かつ信頼性が高くなっていますが、ある研究グループによってトレーニングされたディープラーニングモデルは、他のグループによって利用されることがほとんどありません。
研究者がワークフローを円滑に実行し、加速するためにAIを利用できるようにする必要があるが、公開モデルは不十分で、メンテナンスが不十分である。
我々のアプローチは、複数の画像モダリティからのデータを集約して、アクソンとミエリンセグメンテーションのためのオープンソースで耐久性のあるツールを作成することである。
論文 参考訳(メタデータ) (2024-09-17T20:47:32Z) - An Autoencoder and Generative Adversarial Networks Approach for Multi-Omics Data Imbalanced Class Handling and Classification [2.2940141855172036]
分子生物学では、マルチオミクスシークエンシングから生成されるデータの爆発があった。
従来の統計手法は、そのような高次元データを扱う際に難しい課題に直面している。
この研究は、オートエンコーダを組み込んだニューラルネットワークでこれらの課題に取り組むことに焦点を当て、特徴の潜在空間を抽出する。
論文 参考訳(メタデータ) (2024-05-16T01:45:55Z) - Data-Efficient Learning via Minimizing Hyperspherical Energy [48.47217827782576]
本稿では,少数の代表データを用いたスクラッチからのデータ効率学習の問題について考察する。
我々は,MHEに基づくアクティブラーニング(MHEAL)アルゴリズムを提案し,MHEALの包括的な理論的保証を提供する。
論文 参考訳(メタデータ) (2022-06-30T11:39:12Z) - Relational Subsets Knowledge Distillation for Long-tailed Retinal
Diseases Recognition [65.77962788209103]
本研究では,長尾データを知識に基づいて複数のクラスサブセットに分割し,クラスサブセット学習を提案する。
モデルがサブセット固有の知識の学習に集中するように強制する。
提案手法は長期網膜疾患認識タスクに有効であることが判明した。
論文 参考訳(メタデータ) (2021-04-22T13:39:33Z) - OmiEmbed: reconstruct comprehensive phenotypic information from
multi-omics data using multi-task deep learning [19.889861433855053]
高次元オミクスデータは、パーソナライズド医療に不可欠な本質的なバイオメディカル情報を含む。
多数の分子的特徴と少量のサンプルのために、ゲノム全体のデータからそれらを捉えることは困難である。
我々は,高次元オミクスデータから表現型の全体的かつ比較的正確なプロファイルを捉えるために,OmiEmbedという統合マルチタスク深層学習フレームワークを提案した。
論文 参考訳(メタデータ) (2021-02-03T07:34:29Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z) - Unsupervised Pre-trained Models from Healthy ADLs Improve Parkinson's
Disease Classification of Gait Patterns [3.5939555573102857]
パーキンソン病分類のための加速度計歩行データに関連する特徴を抽出する方法を示す。
我々の事前学習したソースモデルは畳み込みオートエンコーダで構成されており、ターゲット分類モデルは単純な多層パーセプトロンモデルである。
本研究は,Parkinson病分類の課題に対する事前学習モデルの選択が与える影響を,異なる活動群を用いて訓練した2つの異なるソースモデルについて検討する。
論文 参考訳(メタデータ) (2020-05-06T04:08:19Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。