論文の概要: HiCat: A Semi-Supervised Approach for Cell Type Annotation
- arxiv url: http://arxiv.org/abs/2412.06805v1
- Date: Mon, 25 Nov 2024 03:42:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-15 08:28:34.731021
- Title: HiCat: A Semi-Supervised Approach for Cell Type Annotation
- Title(参考訳): HiCat: 細胞型アノテーションに対する半監督的なアプローチ
- Authors: Chang Bi, Kailun Bai, Xing Li, Xuekui Zhang,
- Abstract要約: HiCatは単細胞RNAシークエンシングデータから細胞型をアノテートするための半教師付きパイプラインである。
既知の細胞型に対する教師あり学習の強みと、教師なし学習を融合させ、新しいタイプの識別を行う。
公開されている10のゲノムデータセットをベンチマークすると、HiCatは他のメソッドを上回ります。
- 参考スコア(独自算出の注目度): 7.9354799442899635
- License:
- Abstract: We introduce HiCat (Hybrid Cell Annotation using Transformative embeddings), a novel semi-supervised pipeline for annotating cell types from single-cell RNA sequencing data. HiCat fuses the strengths of supervised learning for known cell types with unsupervised learning to identify novel types. This hybrid approach incorporates both reference and query genomic data for feature engineering, enhancing the embedding learning process, increasing the effective sample size for unsupervised techniques, and improving the transferability of the supervised model trained on reference data when applied to query datasets. The pipeline follows six key steps: (1) removing batch effects using Harmony to generate a 50-dimensional principal component embedding; (2) applying UMAP for dimensionality reduction to two dimensions to capture crucial data patterns; (3) conducting unsupervised clustering of cells with DBSCAN, yielding a one-dimensional cluster membership vector; (4) merging the multi-resolution results of the previous steps into a 53-dimensional feature space that encompasses both reference and query data; (5) training a CatBoost model on the reference dataset to predict cell types in the query dataset; and (6) resolving inconsistencies between the supervised predictions and unsupervised cluster labels. When benchmarked on 10 publicly available genomic datasets, HiCat surpasses other methods, particularly in differentiating and identifying multiple new cell types. Its capacity to accurately classify novel cell types showcases its robustness and adaptability within intricate biological datasets.
- Abstract(参考訳): HiCat (Hybrid Cell Annotation using Transformative Embeddings) は、単一細胞RNAシークエンシングデータから細胞型をアノテートするための、新しい半教師付きパイプラインである。
HiCatは、既知の細胞型に対する教師なし学習の強みと、教師なし学習を融合して、新しいタイプの識別を行う。
このハイブリッドアプローチは、機能エンジニアリングのための参照データとクエリゲノムデータの両方を導入し、埋め込み学習プロセスを強化し、教師なし手法の効果的なサンプルサイズを拡大し、クエリデータセットに適用した場合の参照データに基づいてトレーニングされた教師付きモデルの転送性を向上させる。
パイプラインは、(1)ハーモニーを用いて50次元の主成分の埋め込みを生成するバッチ効果を取り除くこと、(2)UMAPを2次元に縮小して重要なデータパターンを捉えること、(3)DBSCANでセルの教師なしクラスタリングを行い、1次元のクラスタメンバシップベクターを生成すること、(4)前のステップのマルチ解像度結果を参照データとクエリデータの両方を含む53次元の特徴空間にマージすること、(5)参照データセット上のCatBoostモデルをトレーニングしてクエリデータセット内のセルタイプを予測すること、(6)教師付き予測と教師なしクラスタラベルの不整合を解消すること、の6つの主要なステップに従っている。
公開されている10のゲノムデータセットをベンチマークすると、HiCatは他の方法、特に複数の新しい細胞タイプを識別する手法を超越する。
新規な細胞型を正確に分類する能力は、複雑な生物学的データセット内の堅牢性と適応性を示す。
関連論文リスト
- Constructing Cell-type Taxonomy by Optimal Transport with Relaxed Marginal Constraints [14.831346286039151]
細胞のクラスタ分析における課題の1つは、異なる起源や条件のデータセットから抽出されたクラスタのマッチングである。
提案手法は,全サンプルにまたがるセルクラスタの分類を構築し,これらのクラスタのアノテート性を向上し,下流分析のための特徴を効果的に抽出することを目的としている。
論文 参考訳(メタデータ) (2025-01-29T21:29:25Z) - Lower-dimensional projections of cellular expression improves cell type classification from single-cell RNA sequencing [12.66369956714212]
単細胞RNAシークエンシング(scRNA-seq)は単細胞レベルでの細胞多様性の研究を可能にする。
細胞型分類には, 統計的, 機械的, 深層学習に基づく様々な手法が提案されている。
本研究では,EnProCellと呼ばれる細胞型分類のための参照型手法を提案する。
論文 参考訳(メタデータ) (2024-10-13T19:01:38Z) - Hierarchical novel class discovery for single-cell transcriptomic profiles [1.6385815610837167]
我々は発達生物学の文脈で得られたデータセットに焦点をあて、分化過程が階層構造へと導く。
ラベル付きデータとラベルなしデータの両方がトレーニング時に利用できるが、ラベル付きデータのラベルと、ラベルなしデータのラベルのセットは相容れない。
本研究の目的は、データのクラスタ化とラベル付きクラスタのマッピングという2つの目的を達成することである。我々は、問題を解くためのk-MeansとGMMクラスタリング手法の拡張を提案し、人工的および実験的な転写データセットの比較結果を報告する。
論文 参考訳(メタデータ) (2024-09-09T16:49:09Z) - UniCell: Universal Cell Nucleus Classification via Prompt Learning [76.11864242047074]
ユニバーサル細胞核分類フレームワーク(UniCell)を提案する。
異なるデータセットドメインから対応する病理画像のカテゴリを均一に予測するために、新しいプロンプト学習機構を採用している。
特に,本フレームワークでは,原子核検出と分類のためのエンドツーエンドアーキテクチャを採用し,フレキシブルな予測ヘッドを用いて様々なデータセットを適応する。
論文 参考訳(メタデータ) (2024-02-20T11:50:27Z) - scBiGNN: Bilevel Graph Representation Learning for Cell Type
Classification from Single-cell RNA Sequencing Data [62.87454293046843]
グラフニューラルネットワーク(GNN)は、セルタイプの自動分類に広く利用されている。
scBiGNNは2つのGNNモジュールから構成され、細胞型を識別する。
scBiGNNは、scRNA-seqデータから細胞型分類のための様々な方法より優れている。
論文 参考訳(メタデータ) (2023-12-16T03:54:26Z) - Single-cell Multi-view Clustering via Community Detection with Unknown
Number of Clusters [64.31109141089598]
シングルセルデータに適した,革新的なマルチビュークラスタリング手法である scUNC を導入する。
scUNCは、事前に定義された数のクラスタを必要とせずに、異なるビューからの情報をシームレスに統合する。
3つの異なる単一セルデータセットを用いて,SCUNCの総合評価を行った。
論文 参考訳(メタデータ) (2023-11-28T08:34:58Z) - Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z) - Split and Expand: An inference-time improvement for Weakly Supervised
Cell Instance Segmentation [71.50526869670716]
本研究では,分割マップのインスタンスへの変換を改善するために,2段階の後処理手順であるSplitとExpandを提案する。
Splitのステップでは,セルの集合をセグメント化マップから個々のセルインスタンスに分割し,セル中心の予測を導出する。
拡張ステップでは、細胞中心予測を用いて、小さな細胞が欠落していることが分かる。
論文 参考訳(メタデータ) (2020-07-21T14:05:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。