論文の概要: Self-omics: A Self-supervised Learning Framework for Multi-omics Cancer
Data
- arxiv url: http://arxiv.org/abs/2210.00825v1
- Date: Mon, 3 Oct 2022 11:20:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 17:38:20.312647
- Title: Self-omics: A Self-supervised Learning Framework for Multi-omics Cancer
Data
- Title(参考訳): self-omics:マルチオミクス癌データのための自己教師付き学習フレームワーク
- Authors: Sayed Hashim, Karthik Nandakumar, Mohammad Yaqub
- Abstract要約: SSL(Self-Supervised Learning)メソッドは、通常はラベル付きデータを扱うために使用される。
我々は、SSLコンポーネントからなる新しい事前学習パラダイムを開発する。
本手法はTGAパン癌データセットの癌型分類における最先端の手法よりも優れている。
- 参考スコア(独自算出の注目度): 4.843654097048771
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We have gained access to vast amounts of multi-omics data thanks to Next
Generation Sequencing. However, it is challenging to analyse this data due to
its high dimensionality and much of it not being annotated. Lack of annotated
data is a significant problem in machine learning, and Self-Supervised Learning
(SSL) methods are typically used to deal with limited labelled data. However,
there is a lack of studies that use SSL methods to exploit inter-omics
relationships on unlabelled multi-omics data. In this work, we develop a novel
and efficient pre-training paradigm that consists of various SSL components,
including but not limited to contrastive alignment, data recovery from
corrupted samples, and using one type of omics data to recover other omic
types. Our pre-training paradigm improves performance on downstream tasks with
limited labelled data. We show that our approach outperforms the
state-of-the-art method in cancer type classification on the TCGA pan-cancer
dataset in semi-supervised setting. Moreover, we show that the encoders that
are pre-trained using our approach can be used as powerful feature extractors
even without fine-tuning. Our ablation study shows that the method is not
overly dependent on any pretext task component. The network architectures in
our approach are designed to handle missing omic types and multiple datasets
for pre-training and downstream training. Our pre-training paradigm can be
extended to perform zero-shot classification of rare cancers.
- Abstract(参考訳): 次世代のシークエンシングのおかげで、大量のマルチオミクスデータにアクセスできるようになりました。
しかし、その高次元と多くの注釈が付されていないため、このデータを分析することは困難である。
アノテーション付きデータの欠如は機械学習において大きな問題であり、通常はラベル付きデータを扱うためにセルフスーパーバイザードラーニング(SSL)メソッドが使用される。
しかし、SSLメソッドを使って、重複しないマルチオミクスデータ上のオミクス間関係を利用する研究が不足している。
本研究では,コントラストアライメントや破損サンプルからのデータ回収,オミックデータの1つのタイプを用いて他のオミック型を復元することを含む,様々なsslコンポーネントからなる,新規かつ効率的な事前学習パラダイムを開発した。
我々の事前学習パラダイムは、ラベル付きデータに制限のある下流タスクのパフォーマンスを改善する。
本手法は,TCGAパン癌データセットの癌タイプ分類において,半教師付き環境での最先端の手法よりも優れていることを示す。
さらに,本手法を用いて事前学習したエンコーダは,微調整なしでも強力な特徴抽出器として利用できることを示す。
アブレーション研究は,この手法が任意のプリテキストタスクコンポーネントに過度に依存していないことを示す。
このアプローチのネットワークアーキテクチャは、不足するオーミックタイプと、事前トレーニングと下流トレーニングのための複数のデータセットを扱うように設計されています。
我々の事前訓練パラダイムは、希少ながんのゼロショット分類を行うように拡張できる。
関連論文リスト
- Dataset Distillation via Knowledge Distillation: Towards Efficient Self-Supervised Pre-Training of Deep Networks [10.932880269282014]
SSL事前トレーニングのための最初の有効なDD法を提案する。
具体的には、SSLでトレーニングされたより大きな教師モデルの表現に合わせるために、小さな学生モデルを訓練する。
KDの目的はSSLよりもかなり分散度が低いため、我々の手法は、高品質エンコーダの事前訓練に成功できる合成データセットを生成することができる。
論文 参考訳(メタデータ) (2024-10-03T00:39:25Z) - A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification [51.35500308126506]
自己教師付き学習(SSL)は、データ自体が監視を提供する機械学習アプローチであり、外部ラベルの必要性を排除している。
SSLの分類に基づく評価プロトコルがどのように相関し、異なるデータセットのダウンストリーム性能を予測するかを検討する。
論文 参考訳(メタデータ) (2024-07-16T23:17:36Z) - Semi-Supervised End-To-End Contrastive Learning For Time Series
Classification [10.635321868623883]
時系列分類は、金融、医療、センサーデータ分析など、さまざまな分野において重要な課題である。
SLOTS(Semi-supervised Learning fOr Time clasSification)と呼ばれるエンドツーエンドモデルを提案する。
論文 参考訳(メタデータ) (2023-10-13T04:22:21Z) - Synthetic Augmentation with Large-scale Unconditional Pre-training [4.162192894410251]
アノテーション付きデータへの依存性を低減するため,HistoDiffusionという合成拡張手法を提案する。
HistoDiffusionは、大規模にラベル付けされていないデータセットで事前トレーニングし、その後、拡張トレーニングのために小さなラベル付きデータセットに適用することができる。
本手法は,3つの病理組織学的データセットを事前学習し,大腸癌の病理組織学的データセット(CRC)を事前学習データセットから除外して評価する。
論文 参考訳(メタデータ) (2023-08-08T03:34:04Z) - A semi-supervised Teacher-Student framework for surgical tool detection
and localization [2.41710192205034]
外科的ツール検出のパラダイムにおいて,半教師付き学習(SSL)フレームワークを導入する。
提案手法では,教師-学生共同学習を初期化するラベル付きデータを用いたモデルを訓練する。
m2cai16-tool-locations データセットの結果は、異なる教師付きデータ設定に対するアプローチの優位性を示している。
論文 参考訳(メタデータ) (2022-08-21T17:21:31Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - ADT-SSL: Adaptive Dual-Threshold for Semi-Supervised Learning [68.53717108812297]
Semi-Supervised Learning (SSL)は、ラベル付きデータとラベルなしデータを併用してモデルをトレーニングすることで、高度な分類タスクを実現している。
本稿では,半教師付き学習(ADT-SSL)のための適応的デュアル閾値法を提案する。
実験の結果,提案したADT-SSLは最先端の分類精度を実現することがわかった。
論文 参考訳(メタデータ) (2022-05-21T11:52:08Z) - ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for
Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。
我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。
ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文 参考訳(メタデータ) (2021-01-02T09:04:14Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。