論文の概要: Adversarial Domain Adaptation Enables Knowledge Transfer Across Heterogeneous RNA-Seq Datasets
- arxiv url: http://arxiv.org/abs/2603.08062v1
- Date: Mon, 09 Mar 2026 07:55:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.634298
- Title: Adversarial Domain Adaptation Enables Knowledge Transfer Across Heterogeneous RNA-Seq Datasets
- Title(参考訳): 対立ドメイン適応は不均一RNA-Seqデータセット間の知識伝達を可能にする
- Authors: Kevin Dradjat, Massinissa Hamidi, Blaise Hanczar,
- Abstract要約: ディープラーニングモデルは、古典的な機械学習アプローチを上回る可能性を示している。
転写学では、そのようなデータセットは頻繁に制限され、過度に適合し、一般化が不十分になる。
本稿では,大規模な汎用データセットから,がんタイプ分類のためのより小さなデータセットへの効果的な知識伝達を可能にする,ディープラーニングに基づくドメイン適応フレームワークを提案する。
- 参考スコア(独自算出の注目度): 2.0755366440393743
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Accurate phenotype prediction from RNA sequencing (RNA-seq) data is essential for diagnosis, biomarker discovery, and personalized medicine. Deep learning models have demonstrated strong potential to outperform classical machine learning approaches, but their performance relies on large, well-annotated datasets. In transcriptomics, such datasets are frequently limited, leading to over-fitting and poor generalization. Knowledge transfer from larger, more general datasets can alleviate this issue. However, transferring information across RNA-seq datasets remains challenging due to heterogeneous preprocessing pipelines and differences in target phenotypes. In this study, we propose a deep learning-based domain adaptation framework that enables effective knowledge transfer from a large general dataset to a smaller one for cancer type classification. The method learns a domain-invariant latent space by jointly optimizing classification and domain alignment objectives. To ensure stable training and robustness in data-scarce scenarios, the framework is trained with an adversarial approach with appropriate regularization. Both supervised and unsupervised approach variants are explored, leveraging labeled or unlabeled target samples. The framework is evaluated on three large-scale transcriptomic datasets (TCGA, ARCHS4, GTEx) to assess its ability to transfer knowledge across cohorts. Experimental results demonstrate consistent improvements in cancer and tissue type classification accuracy compared to non-adaptive baselines, particularly in low-data scenarios. Overall, this work highlights domain adaptation as a powerful strategy for data-efficient knowledge transfer in transcriptomics, enabling robust phenotype prediction under constrained data conditions.
- Abstract(参考訳): RNAシークエンシング(RNA-seq)データからの正確な表現型予測は、診断、バイオマーカー発見、パーソナライズド医療に不可欠である。
ディープラーニングモデルは、古典的な機械学習アプローチよりも優れた可能性を強く示していますが、そのパフォーマンスは、大きく、よく注釈付けされたデータセットに依存しています。
転写学では、そのようなデータセットは頻繁に制限され、過度に適合し、一般化が不十分になる。
より大規模で一般的なデータセットからの知識伝達は、この問題を軽減することができる。
しかし、RNA-seqデータセット間で情報を転送することは、不均一な前処理パイプラインとターゲット表現型の違いのため、依然として困難である。
本研究では,大規模な一般データセットから癌型分類のためのより小さなデータセットへの効果的な知識伝達を可能にする,ディープラーニングに基づくドメイン適応フレームワークを提案する。
この方法は、分類とドメインアライメントの目的を協調的に最適化することで、ドメイン不変の潜在空間を学習する。
データスカースシナリオにおける安定したトレーニングと堅牢性を確保するため、フレームワークは適切な正規化を伴う敵のアプローチでトレーニングされる。
教師なしアプローチと教師なしアプローチの両方を探索し、ラベル付きまたはラベルなしターゲットサンプルを活用する。
このフレームワークは3つの大規模転写データセット(TCGA、ARCHS4、GTEx)で評価され、コホート間で知識を伝達する能力を評価する。
実験の結果,特に低データシナリオにおいて,非適応的ベースラインに比べて癌や組織型分類の精度が一貫した改善が見られた。
全体として、この研究は、転写学におけるデータ効率のよい知識伝達のための強力な戦略としてのドメイン適応を強調し、制約されたデータ条件下で堅牢な表現型予測を可能にする。
関連論文リスト
- Robust Molecular Property Prediction via Densifying Scarce Labeled Data [53.24886143129006]
薬物発見において、研究を進める上で最も重要な化合物は、しばしば訓練セットを越えている。
本稿では, ラベル付きデータを利用して, 分布内データ(ID)と分布外データ(OOD)を補間する2段階最適化手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T15:27:40Z) - Amplifying Pathological Detection in EEG Signaling Pathways through
Cross-Dataset Transfer Learning [10.212217551908525]
実世界の病理分類課題におけるデータとモデルスケーリングとデータセット間の知識伝達の有効性について検討する。
ネガティブトランスファーの可能性の課題を特定し、いくつかの重要なコンポーネントの重要性を強調する。
以上の結果から,小規模で汎用的なモデル(ShallowNetなど)は単一データセット上では良好に動作するが,大規模なモデル(TCNなど)では,大規模かつ多様なデータセットからの転送や学習がより優れていることが示唆された。
論文 参考訳(メタデータ) (2023-09-19T20:09:15Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Optirank: classification for RNA-Seq data with optimal ranking reference
genes [0.0]
そこで我々は,ロジスティック回帰モデルであるOptiicrankを提案し,モデルと遺伝子のパラメータを同時に学習し,ランキングの基準セットとして使用する。
また、列車データと試験データの間に異なる種類の分散シフトを示す実際の分類タスクについても検討する。
論文 参考訳(メタデータ) (2023-01-11T10:49:06Z) - Label scarcity in biomedicine: Data-rich latent factor discovery
enhances phenotype prediction [102.23901690661916]
低次元の埋め込み空間は、健康指標、ライフスタイル、および人口動態の予測をデータスカース化するために、英国バイオバンクの人口データセットから導出することができる。
半超越的アプローチによるパフォーマンス向上は、おそらく様々な医学データサイエンス応用にとって重要な要素となるだろう。
論文 参考訳(メタデータ) (2021-10-12T16:25:50Z) - TraND: Transferable Neighborhood Discovery for Unsupervised Cross-domain
Gait Recognition [77.77786072373942]
本稿では、教師なしクロスドメイン歩行認識のための領域ギャップを橋渡しするTransferable Neighborhood Discovery (TraND) フレームワークを提案する。
我々は、潜在空間におけるラベルなしサンプルの自信ある近傍を自動的に発見するために、エンドツーエンドのトレーニング可能なアプローチを設計する。
提案手法は,CASIA-BとOU-LPの2つの公開データセットに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-02-09T03:07:07Z) - Domain Adaptation by Topology Regularization [0.0]
ドメイン適応(DA)または転送学習(TL)は、ラベル付き(ソース)データセットから関心のある(ターゲット)データセットに知識を転送するアルゴリズムを可能にする。
本稿では,TLに永続ホモロジーと呼ばれる位相データ解析手法を適用し,グローバルなデータ構造を活用することを提案する。
論文 参考訳(メタデータ) (2021-01-28T16:45:41Z) - Approximate kNN Classification for Biomedical Data [1.1852406625172218]
Single-cell RNA-seq (scRNA-seq) は、将来性はあるが重要な計算課題を持つDNAシークエンシング技術である。
scRNA-seqデータにおけるkNN分類のタスクに近似した近接探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-03T18:30:43Z) - A Cross-Level Information Transmission Network for Predicting Phenotype
from New Genotype: Application to Cancer Precision Medicine [37.442717660492384]
本稿では,CLEIT(Cross-Level Information Transmission Network)フレームワークを提案する。
ドメイン適応にインスパイアされたCLEITは、まずハイレベルドメインの潜在表現を学び、その後、接地木埋め込みとして利用する。
体細胞突然変異による抗がん剤感受性の予測におけるCLEITの有効性と性能の向上を示す。
論文 参考訳(メタデータ) (2020-10-09T22:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。