論文の概要: scSSL-Bench: Benchmarking Self-Supervised Learning for Single-Cell Data
- arxiv url: http://arxiv.org/abs/2506.10031v1
- Date: Tue, 10 Jun 2025 12:31:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.327538
- Title: scSSL-Bench: Benchmarking Self-Supervised Learning for Single-Cell Data
- Title(参考訳): scSSL-Bench: シングルセルデータのための自己監視型学習のベンチマーク
- Authors: Olga Ovcharenko, Florian Barkmann, Philip Toma, Imant Daunhawer, Julia Vogt, Sebastian Schelter, Valentina Boeva,
- Abstract要約: 自己教師付き学習は、単細胞データから生物学的に意味のある表現を抽出するための強力なアプローチであることが証明されている。
scSSL-Benchは、19のSSLメソッドを評価する包括的なベンチマークである。
- 参考スコア(独自算出の注目度): 12.353367418424572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) has proven to be a powerful approach for extracting biologically meaningful representations from single-cell data. To advance our understanding of SSL methods applied to single-cell data, we present scSSL-Bench, a comprehensive benchmark that evaluates nineteen SSL methods. Our evaluation spans nine datasets and focuses on three common downstream tasks: batch correction, cell type annotation, and missing modality prediction. Furthermore, we systematically assess various data augmentation strategies. Our analysis reveals task-specific trade-offs: the specialized single-cell frameworks, scVI, CLAIRE, and the finetuned scGPT excel at uni-modal batch correction, while generic SSL methods, such as VICReg and SimCLR, demonstrate superior performance in cell typing and multi-modal data integration. Random masking emerges as the most effective augmentation technique across all tasks, surpassing domain-specific augmentations. Notably, our results indicate the need for a specialized single-cell multi-modal data integration framework. scSSL-Bench provides a standardized evaluation platform and concrete recommendations for applying SSL to single-cell analysis, advancing the convergence of deep learning and single-cell genomics.
- Abstract(参考訳): 自己教師付き学習(SSL)は、単細胞データから生物学的に意味のある表現を抽出するための強力なアプローチであることが証明されている。
単一セルデータに適用されたSSLメソッドの理解を深めるために,19個のSSLメソッドを評価する包括的なベンチマークである scSSL-Bench を提案する。
評価は9つのデータセットにまたがり,バッチ修正,セル型アノテーション,モダリティの欠如といった3つのダウンストリームタスクに焦点をあてる。
さらに,様々なデータ拡張戦略を体系的に評価する。
特殊な単一セルフレームワークである scVI, CLAIRE, および細調整された scGPT はユニモーダルバッチ補正を行う一方, VICReg や SimCLR などの汎用SSL メソッドはセルタイピングやマルチモーダルデータ統合において優れた性能を示す。
ランダムマスキングは、すべてのタスクにまたがる最も効果的な拡張テクニックとして現れ、ドメイン固有の拡張を超えた。
特に,本研究の結果から,特殊なシングルセルマルチモーダルデータ統合フレームワークの必要性が示唆された。
scSSL-Benchは、単一のセル分析にSSLを適用するための、標準化された評価プラットフォームと具体的なレコメンデーションを提供し、ディープラーニングとシングルセルゲノミクスの収束を促進している。
関連論文リスト
- Language-Enhanced Representation Learning for Single-Cell Transcriptomics [27.33236345953242]
単細胞転写学における言語強化表現学習のための新しいフレームワークである scMMGPT を提案する。
scMMGPTは、ロバストな細胞表現抽出を採用し、定量的な遺伝子発現データを保存し、革新的な2段階事前学習戦略を導入する。
論文 参考訳(メタデータ) (2025-03-12T14:26:16Z) - From Histopathology Images to Cell Clouds: Learning Slide Representations with Hierarchical Cell Transformer [18.495089886413133]
我々は、50億以上のセルレベルのアノテーションを持つ大規模なWSIデータセットを構築し、WSI-Cell5Bと呼ぶ。
我々の知る限りでは、WSI-Cell5Bは、セルレベルのアノテーションを統合する最初のWSIレベルの大規模データセットです。
論文 参考訳(メタデータ) (2024-12-21T17:57:12Z) - Single-Cell Omics Arena: A Benchmark Study for Large Language Models on Cell Type Annotation Using Single-Cell Data [13.56585855722118]
大規模言語モデル(LLM)は、テキストの膨大なコーパスを効率的に処理し、合成し、生物学的知識を自動的に抽出する能力を実証している。
本研究は、単一細胞RNAシークエンシング(scRNA-seq)データにおいて、細胞型を正確に分類し、アノテートするLLMの可能性を探るものである。
以上の結果から,LCMは微調整を必要とせずに単一セルデータの堅牢な解釈を実現できることが示された。
論文 参考訳(メタデータ) (2024-12-03T23:58:35Z) - A Channel-ensemble Approach: Unbiased and Low-variance Pseudo-labels is Critical for Semi-supervised Classification [61.473485511491795]
半教師付き学習(SSL)はコンピュータビジョンにおける実践的な課題である。
Pseudo-label (PL) メソッド、例えば FixMatch や FreeMatch は SSL で State of The Art (SOTA) のパフォーマンスを取得する。
本稿では,複数の下位PLを理論的に保証された非偏りと低分散のPLに集約する,軽量なチャネルベースアンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-03-27T09:49:37Z) - Single-cell Multi-view Clustering via Community Detection with Unknown
Number of Clusters [64.31109141089598]
シングルセルデータに適した,革新的なマルチビュークラスタリング手法である scUNC を導入する。
scUNCは、事前に定義された数のクラスタを必要とせずに、異なるビューからの情報をシームレスに統合する。
3つの異なる単一セルデータセットを用いて,SCUNCの総合評価を行った。
論文 参考訳(メタデータ) (2023-11-28T08:34:58Z) - CroSSL: Cross-modal Self-Supervised Learning for Time-series through
Latent Masking [11.616031590118014]
CroSSLは、欠落したモダリティとエンドツーエンドのクロスモーダル学習を扱うことができる。
動作センサを含む幅広いデータを用いて本手法の評価を行った。
論文 参考訳(メタデータ) (2023-07-31T17:10:10Z) - Exploration and Exploitation of Unlabeled Data for Open-Set
Semi-Supervised Learning [130.56124475528475]
半教師付き学習 (SSL) において, 未ラベルデータには, 内分布 (ID) と外分布 (OOD) の両方を含む, オープンセット SSL という複雑なシナリオに対処する。
提案手法は, 未ラベルデータにIDサンプルが完全に欠落している場合でも, 既存のSSL方式を改良する。
論文 参考訳(メタデータ) (2023-06-30T14:25:35Z) - Collaborative Intelligence Orchestration: Inconsistency-Based Fusion of
Semi-Supervised Learning and Active Learning [60.26659373318915]
アクティブラーニング(AL)と半教師付きラーニング(SSL)は2つの効果があるが、しばしば孤立している。
本稿では、SSL-ALの潜在的な優位性をさらに調査するために、革新的な一貫性に基づく仮想aDvErialアルゴリズムを提案する。
2つの実世界のケーススタディは、提案したデータサンプリングアルゴリズムの適用と展開の実践的な産業価値を可視化する。
論文 参考訳(メタデータ) (2022-06-07T13:28:43Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z) - Revisiting LSTM Networks for Semi-Supervised Text Classification via
Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。
いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文 参考訳(メタデータ) (2020-09-08T21:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。