論文の概要: Self-supervised learning of multi-omics embeddings in the low-label,
high-data regime
- arxiv url: http://arxiv.org/abs/2311.09962v1
- Date: Thu, 16 Nov 2023 15:32:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 13:37:53.820545
- Title: Self-supervised learning of multi-omics embeddings in the low-label,
high-data regime
- Title(参考訳): 低ラベル高データ状態におけるマルチオミクス埋め込みの自己教師付き学習
- Authors: Christian John Hurry, Emma Slade
- Abstract要約: 対照的に、自己教師型学習(SSL)は、ユニモーダル、mRNA、RPPAの発現データからがんのタイプを予測するモデルを訓練するために用いられる。
遅延融合モデルでは、各オミクスがそれぞれのサブネットワークに渡され、その出力が平均化され、事前学習または下流の目的関数に渡される。
マルチモーダルプレトレーニングは単一オミクスからの予測を改善することが示されており、多くの非ラベル付きマルチモーダルサンプルを持つデータセットでは有用であるが、ラベル付きサンプルはほとんどない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Contrastive, self-supervised learning (SSL) is used to train a model that
predicts cancer type from miRNA, mRNA or RPPA expression data. This model, a
pretrained FT-Transformer, is shown to outperform XGBoost and CatBoost,
standard benchmarks for tabular data, when labelled samples are scarce but the
number of unlabelled samples is high. This is despite the fact that the
datasets we use have $\mathcal{O}(10^{1})$ classes and
$\mathcal{O}(10^{2})-\mathcal{O}(10^{4})$ features. After demonstrating the
efficacy of our chosen method of self-supervised pretraining, we investigate
SSL for multi-modal models. A late-fusion model is proposed, where each omics
is passed through its own sub-network, the outputs of which are averaged and
passed to the pretraining or downstream objective function. Multi-modal
pretraining is shown to improve predictions from a single omics, and we argue
that this is useful for datasets with many unlabelled multi-modal samples, but
few labelled unimodal samples. Additionally, we show that pretraining each
omics-specific module individually is highly effective. This enables the
application of the proposed model in a variety of contexts where a large amount
of unlabelled data is available from each omics, but only a few labelled
samples.
- Abstract(参考訳): 対照的に、自己教師型学習(SSL)は、miRNA、mRNA、RPPAの発現データからがんのタイプを予測するモデルを訓練するために用いられる。
FT-Transformerを事前訓練したこのモデルでは,ラベル付きサンプルが不足するが,非ラベル付きサンプルの数が高い場合,表型データの標準ベンチマークであるXGBoostとCatBoostより優れていた。
これは、私たちが使用するデータセットが$\mathcal{O}(10^{1})$クラスと$\mathcal{O}(10^{2})-\mathcal{O}(10^{4})$機能を持っているという事実に反している。
自己教師付き事前訓練法の有効性を実証した後,マルチモーダルモデルのSSLについて検討した。
遅延融合モデルでは、各オミクスがそれぞれのサブネットワークに渡され、その出力が平均化され、事前学習または下流の目的関数に渡される。
マルチモーダルプレトレーニングは単一オミクスからの予測を改善することが示されており、これは多数の非ラベル付きマルチモーダルサンプルを持つデータセットでは有用であるが、ラベル付きアンモダルサンプルはほとんどない。
さらに,各オミクス固有のモジュールを個別に事前学習することは極めて効果的であることを示す。
これにより,各オミクスから大量の未ラベルデータが得られるが,ラベル付きサンプルはほとんどない状況において,提案モデルの適用が可能となる。
関連論文リスト
- Exploring Beyond Logits: Hierarchical Dynamic Labeling Based on Embeddings for Semi-Supervised Classification [49.09505771145326]
モデル予測に依存しない階層型動的ラベル付け(HDL)アルゴリズムを提案し,画像埋め込みを用いてサンプルラベルを生成する。
本手法は,半教師付き学習における擬似ラベル生成のパラダイムを変える可能性がある。
論文 参考訳(メタデータ) (2024-04-26T06:00:27Z) - No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。
本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文 参考訳(メタデータ) (2024-04-04T17:58:02Z) - How Low Can You Go? Surfacing Prototypical In-Distribution Samples for
Unsupervised Anomaly Detection [56.06401423880554]
教師なし異常検出(UAD)は、ラベルなしの配布データのみをトレーニングすることで、大規模なラベル付け作業を軽減する。
ごく少数のトレーニングサンプルを使用することで、トレーニングデータセット全体のトレーニングと比較して、すでに一致し、場合によっては異常検出も改善できることが示されています。
論文 参考訳(メタデータ) (2023-12-06T15:30:47Z) - Generative Semi-supervised Learning with Meta-Optimized Synthetic
Samples [5.384630221560811]
半教師付き学習(SSL)はラベル付きデータセットとラベルなしデータセットを使用して、深い分類モデルをトレーニングするための有望なアプローチである。
本稿では,SSLモデルをラベルなしのデータセットなしでトレーニングすることは可能か,という研究課題について検討する。
多様な領域に数百万のサンプルを含むデータセットに基づいて学習した生成基盤モデルから生成された合成データセットを用いたSSL手法を提案する。
論文 参考訳(メタデータ) (2023-09-28T03:47:26Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - ScatterSample: Diversified Label Sampling for Data Efficient Graph
Neural Network Learning [22.278779277115234]
グラフニューラルネットワーク(GNN)トレーニングが高価であるいくつかのアプリケーションでは、新しいインスタンスのラベル付けが高価である。
データ効率のよいアクティブサンプリングフレームワークであるScatterSampleを開発し、アクティブな学習環境下でGNNを訓練する。
5つのデータセットに対する実験により、ScatterSampleは他のGNNのアクティブラーニングベースラインよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2022-06-09T04:05:02Z) - A Data Cartography based MixUp for Pre-trained Language Models [47.90235939359225]
MixUpは、トレーニング中にランダムなトレーニングサンプルとラベルを組み合わせて追加のサンプルを生成するデータ拡張戦略である。
トレーニングダイナミクスを活用した新しいMixUp戦略であるTDMixUpを提案する。
提案手法は, トレーニングデータの少ないサブセットと強いベースラインとを比較した場合, また, NLPタスクの領域内および領域外の両方で, トレーニング済み言語モデルであるBERTのキャリブレーション誤差が低いことを実証的に検証した。
論文 参考訳(メタデータ) (2022-05-06T17:59:19Z) - Pseudo-Labeled Auto-Curriculum Learning for Semi-Supervised Keypoint
Localization [88.74813798138466]
オブジェクトのキーポイントのローカライズは、基本的な視覚的問題である。
キーポイントローカライゼーションネットワークの教師付き学習は、しばしば大量のデータを必要とする。
本稿では,一連の動的しきい値を持つ信頼度の高い擬似ラベルサンプルを自動的に選択する。
論文 参考訳(メタデータ) (2022-01-21T09:51:58Z) - Multi-Task Curriculum Framework for Open-Set Semi-Supervised Learning [54.85397562961903]
ラベル付きデータに制限がある場合に、ラベルなしデータを利用して強力なモデルをトレーニングする半教師付き学習(SSL)が提案されている。
我々は、Open-set SSLと呼ばれるより複雑な新しいシナリオに対処する。
提案手法は,OOD試料の効果を除去し,最先端の結果を得る。
論文 参考訳(メタデータ) (2020-07-22T10:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。