論文の概要: Self-supervised learning on gene expression data
- arxiv url: http://arxiv.org/abs/2507.13912v1
- Date: Fri, 18 Jul 2025 13:43:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.29876
- Title: Self-supervised learning on gene expression data
- Title(参考訳): 遺伝子発現データを用いた自己教師付き学習
- Authors: Kevin Dradjat, Massinissa Hamidi, Pierre Bartet, Blaise Hanczar,
- Abstract要約: 遺伝子発現データから表現型を予測することは、疾患のメカニズム、薬物反応、パーソナライズド医療への洞察を可能にする生体医学研究において重要な課題である。
従来の機械学習とディープラーニングは、大量のラベル付きデータを必要とする教師付き学習に依存している。
自己教師付き学習は、ラベルのないデータ構造から直接情報を抽出することで、これらの制限を克服するための有望なアプローチとして現れてきた。
- 参考スコア(独自算出の注目度): 3.8623569699070353
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Predicting phenotypes from gene expression data is a crucial task in biomedical research, enabling insights into disease mechanisms, drug responses, and personalized medicine. Traditional machine learning and deep learning rely on supervised learning, which requires large quantities of labeled data that are costly and time-consuming to obtain in the case of gene expression data. Self-supervised learning has recently emerged as a promising approach to overcome these limitations by extracting information directly from the structure of unlabeled data. In this study, we investigate the application of state-of-the-art self-supervised learning methods to bulk gene expression data for phenotype prediction. We selected three self-supervised methods, based on different approaches, to assess their ability to exploit the inherent structure of the data and to generate qualitative representations which can be used for downstream predictive tasks. By using several publicly available gene expression datasets, we demonstrate how the selected methods can effectively capture complex information and improve phenotype prediction accuracy. The results obtained show that self-supervised learning methods can outperform traditional supervised models besides offering significant advantage by reducing the dependency on annotated data. We provide a comprehensive analysis of the performance of each method by highlighting their strengths and limitations. We also provide recommendations for using these methods depending on the case under study. Finally, we outline future research directions to enhance the application of self-supervised learning in the field of gene expression data analysis. This study is the first work that deals with bulk RNA-Seq data and self-supervised learning.
- Abstract(参考訳): 遺伝子発現データから表現型を予測することは、疾患のメカニズム、薬物反応、パーソナライズド医療への洞察を可能にする生体医学研究において重要な課題である。
従来の機械学習とディープラーニングは教師付き学習に依存しており、遺伝子発現データの場合、大量のラベル付きデータを必要とする。
近年,ラベルのないデータ構造から直接情報を抽出することで,これらの制限を克服するための有望なアプローチとして,自己教師型学習が登場している。
本研究では,表現型予測のための遺伝子発現データのバルク化に対する最先端の自己教師型学習法の適用について検討する。
提案手法は,データ固有の構造を生かし,下流の予測タスクに使用できる定性表現を生成する能力を評価するために,異なるアプローチに基づく3つの自己教師型手法を選択した。
複数の公開可能な遺伝子発現データセットを使用することで、選択した手法が複雑な情報を効果的にキャプチャし、表現型予測精度を向上させる方法を示す。
その結果, 自己教師付き学習手法は, 注釈付きデータへの依存を減らすことで, 従来の教師付きモデルよりも優れていることがわかった。
本稿では,それぞれの手法の強みと限界を明らかにすることで,各手法の性能を包括的に分析する。
また,本研究の事例に応じて,これらの手法を用いることを推奨する。
最後に、遺伝子発現データ解析の分野における自己教師あり学習の適用性を高めるための今後の研究方針について概説する。
この研究はRNA-Seqのバルクデータと自己教師型学習を扱う最初の研究である。
関連論文リスト
- Robust Molecular Property Prediction via Densifying Scarce Labeled Data [51.55434084913129]
薬物発見において、研究を進める上で最も重要な化合物は、しばしば訓練セットを越えている。
本稿では,未ラベルデータを利用したメタラーニングに基づく新しい手法を提案する。
実世界のデータセットに挑戦する上で、大きなパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2025-06-13T15:27:40Z) - Multi-dataset and Transfer Learning Using Gene Expression Knowledge Graphs [1.8722948221596285]
遺伝子発現データセットは、遺伝子調節機構、生化学的経路、細胞機能に関する洞察を提供する。
遺伝子発現データは貴重な洞察を与えることができるが、式データセットの患者数が限られているため、課題が生じる。
本研究は、複数の遺伝子発現データセットとドメイン固有の知識を統合することで、これらの課題に対処する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-03-26T10:23:27Z) - Detecting Dataset Bias in Medical AI: A Generalized and Modality-Agnostic Auditing Framework [8.017827642932746]
データセットに対する一般属性ユーティリティと検出可能性によるバイアステスト(G-AUDIT)は、モダリティに依存しないデータセット監査フレームワークである。
本手法は,患者属性を含むデータ特性とタスクレベルのアノテーションの関係について検討する。
G-AUDITは、従来の定性的手法で見過ごされる微妙な偏見をうまく識別する。
論文 参考訳(メタデータ) (2025-03-13T02:16:48Z) - Meta-Learning on Augmented Gene Expression Profiles for Enhanced Lung Cancer Detection [3.7929238927240685]
本稿では,遺伝子発現プロファイルから肺がんを予測するためのメタラーニングに基づくアプローチを提案する。
メタ学習タスクには4つの異なるデータセットを使用します。
その結果、単一のデータセットでトレーニングされたベースラインと比較して、強化されたソースデータに対するメタラーニングの優れた性能を示した。
論文 参考訳(メタデータ) (2024-08-19T01:39:12Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Towards Biologically Plausible and Private Gene Expression Data
Generation [47.72947816788821]
差分プライバシー(DP)で訓練された生成モデルは、下流アプリケーションのための合成データの作成において、ますます顕著になりつつある。
しかし、既存の文献は主に基本的なベンチマークデータセットに焦点を当てており、基本的なメトリクスと比較的単純なデータ分布にのみ有望な結果を報告する傾向にある。
本研究では,DP生成モデルが自然応用シナリオにおいてどのように機能するかを系統的に分析し,実世界の遺伝子発現データに焦点をあてる。
論文 参考訳(メタデータ) (2024-02-07T14:39:11Z) - Drug Synergistic Combinations Predictions via Large-Scale Pre-Training
and Graph Structure Learning [82.93806087715507]
薬物併用療法は、より有効で安全性の低い疾患治療のための確立された戦略である。
ディープラーニングモデルは、シナジスティックな組み合わせを発見する効率的な方法として登場した。
我々のフレームワークは、他のディープラーニングベースの手法と比較して最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-01-14T15:07:43Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - TRAPDOOR: Repurposing backdoors to detect dataset bias in machine
learning-based genomic analysis [15.483078145498085]
データセット内のグループの下位表現は、特定のグループの不正確な予測につながる可能性があるため、システム的識別問題を悪化させる可能性がある。
本稿では,ニューラルネットワークのバックドアであるTRAPDOORを提案する。
実世界のがんデータセットを用いて、すでに白人個人に対して存在するバイアスでデータセットを分析し、データセットにバイアスを人工的に導入する。
論文 参考訳(メタデータ) (2021-08-14T17:02:02Z) - Predicting Potential Drug Targets Using Tensor Factorisation and
Knowledge Graph Embeddings [4.415977307120617]
我々は、病気の潜在的な薬物標的(遺伝子またはタンパク質)を予測するための新しいテンソル分解モデルを開発した。
薬物発見指向の知識グラフから得られた遺伝子表現を用いてデータを豊かにし,提案手法を適用し,未確認ターゲットと解離ペアの臨床的結果を予測する。
論文 参考訳(メタデータ) (2021-05-20T16:19:00Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。