論文の概要: Benchmarking Preprocessing and Integration Methods in Single-Cell Genomics
- arxiv url: http://arxiv.org/abs/2601.00277v1
- Date: Thu, 01 Jan 2026 09:28:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.356325
- Title: Benchmarking Preprocessing and Integration Methods in Single-Cell Genomics
- Title(参考訳): シングルセルゲノミクスにおけるベンチマーク前処理と統合手法
- Authors: Ali Anaissi, Seid Miad Zandavi, Weidong Huang, Junaid Akram, Basem Suleiman, Ali Braytee, Jie Hua,
- Abstract要約: 本研究では、正規化、データ統合、次元減少を含む単一セルデータ解析のための一般的なパイプラインについて検討する。
我々は,Silhouette Coefficient Score, Adjusted Rand Index, Calinski-Harabasz Indexの3つの指標を用いて, 様々な形態, 組織, 生物の6つのデータセットを評価した。
その結果、SeuratとHarmonyはデータ統合に優れており、Harmonyは特に大規模なデータセットではより時間効率が良いことがわかった。
- 参考スコア(独自算出の注目度): 2.410981712001601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single-cell data analysis has the potential to revolutionize personalized medicine by characterizing disease-associated molecular changes at the single-cell level. Advanced single-cell multimodal assays can now simultaneously measure various molecules (e.g., DNA, RNA, Protein) across hundreds of thousands of individual cells, providing a comprehensive molecular readout. A significant analytical challenge is integrating single-cell measurements across different modalities. Various methods have been developed to address this challenge, but there has been no systematic evaluation of these techniques with different preprocessing strategies. This study examines a general pipeline for single-cell data analysis, which includes normalization, data integration, and dimensionality reduction. The performance of different algorithm combinations often depends on the dataset sizes and characteristics. We evaluate six datasets across diverse modalities, tissues, and organisms using three metrics: Silhouette Coefficient Score, Adjusted Rand Index, and Calinski-Harabasz Index. Our experiments involve combinations of seven normalization methods, four dimensional reduction methods, and five integration methods. The results show that Seurat and Harmony excel in data integration, with Harmony being more time-efficient, especially for large datasets. UMAP is the most compatible dimensionality reduction method with the integration techniques, and the choice of normalization method varies depending on the integration method used.
- Abstract(参考訳): 単一細胞データ分析は、単一細胞レベルでの疾患関連分子変化を特徴付けることにより、パーソナライズされた医療に革命をもたらす可能性がある。
先進的な単細胞マルチモーダルアッセイは、数十万の個々の細胞にわたる様々な分子(例えば、DNA、RNA、タンパク質)を同時に測定し、包括的分子読取を可能にした。
重要な分析上の課題は、異なるモードにまたがって単細胞計測を統合することである。
この課題に対処するために様々な手法が開発されているが、これらの手法を様々な前処理戦略で体系的に評価することはなかった。
本研究では、正規化、データ統合、次元減少を含む単一セルデータ解析のための一般的なパイプラインについて検討する。
異なるアルゴリズムの組み合わせのパフォーマンスは、しばしばデータセットのサイズと特性に依存する。
我々は,Silhouette Coefficient Score, Adjusted Rand Index, Calinski-Harabasz Indexの3つの指標を用いて, 様々な形態, 組織, 生物の6つのデータセットを評価した。
実験では,7つの正規化法,4次元還元法,および5つの積分法を組み合わせた。
その結果、SeuratとHarmonyはデータ統合に優れており、Harmonyは特に大規模なデータセットではより時間効率が良いことがわかった。
UMAPは統合手法と最も互換性のある次元減少法であり、正規化法の選択は使用する積分法によって異なる。
関連論文リスト
- scMRDR: A scalable and flexible framework for unpaired single-cell multi-omics data integration [53.683726781791385]
単一セルマルチオミクス(ScMRDR)と呼ばれるスケーラブルでフレキシブルな生成フレームワークを導入する。
本手法は, バッチ補正, モダリティアライメント, 生体信号保存の観点から, ベンチマークデータセット上での優れた性能を実現する。
論文 参考訳(メタデータ) (2025-10-28T21:28:39Z) - CAVACHON: a hierarchical variational autoencoder to integrate multi-modal single-cell data [10.429856767305687]
マルチモーダルデータ間の条件付き独立関係を明示的に組み込んだ新しい確率論的学習フレームワークを提案する。
単セルマルチオミクスデータ統合に関連する様々なアプリケーションにおけるフレームワークの汎用性を実証する。
論文 参考訳(メタデータ) (2024-05-28T23:44:09Z) - Single-Cell Deep Clustering Method Assisted by Exogenous Gene
Information: A Novel Approach to Identifying Cell Types [50.55583697209676]
我々は,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。
クラスタリング過程において,両情報の集合を統合し,細胞と遺伝子の特徴を再構成し,識別的表現を生成する。
本研究は、細胞の特徴と分布に関する知見を高め、疾患の早期診断と治療の基礎となる。
論文 参考訳(メタデータ) (2023-11-28T09:14:55Z) - Single-cell Multi-view Clustering via Community Detection with Unknown
Number of Clusters [64.31109141089598]
シングルセルデータに適した,革新的なマルチビュークラスタリング手法である scUNC を導入する。
scUNCは、事前に定義された数のクラスタを必要とせずに、異なるビューからの情報をシームレスに統合する。
3つの異なる単一セルデータセットを用いて,SCUNCの総合評価を行った。
論文 参考訳(メタデータ) (2023-11-28T08:34:58Z) - Regression-Based Analysis of Multimodal Single-Cell Data Integration
Strategies [0.0]
マルチモーダルシングルセル技術は、個々のセルから多様なデータ型の同時収集を可能にする。
この研究は、Echo State Networksの異常なパフォーマンスを強調し、顕著な相関スコアが0.94である。
これらの発見は、機械学習の可能性を生かして、細胞の分化と機能に関する理解を深めることを約束している。
論文 参考訳(メタデータ) (2023-11-21T16:31:27Z) - Mixed Models with Multiple Instance Learning [51.440557223100164]
一般化線形混合モデル(GLMM)とMultiple Instance Learning(MIL)を統合するフレームワークであるMixMILを紹介する。
実験結果から,MixMILは単一セルデータセットにおいて既存のMILモデルより優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-04T16:42:42Z) - Is your data alignable? Principled and interpretable alignability
testing and integration of single-cell data [24.457344926393397]
単細胞データ統合は、細胞の包括的な分子ビューを提供する。
既存の方法にはいくつかの基本的な制限がある。
スペクトル多様体アライメントと推論の枠組みを提案する。
論文 参考訳(メタデータ) (2023-08-03T16:04:14Z) - Fast and Functional Structured Data Generators Rooted in Out-of-Equilibrium Physics [44.97217246897902]
エネルギーモデルを用いて、構造化データセットで高品質なラベル特化データを生成するという課題に対処する。
伝統的な訓練方法は、マルコフ連鎖モンテカルロ混合による困難に遭遇する。
非平衡効果を利用した新しいトレーニングアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-07-13T15:08:44Z) - Contrastive Cycle Adversarial Autoencoders for Single-cell Multi-omics
Alignment and Integration [0.0]
本稿では,単一セルRNA-seqデータと単一セルATAC-seqデータとの整合と統合のための新しいフレームワークを提案する。
他の最先端手法と比較して,本手法はシミュレーションデータと実シングルセルデータの両方において優れた性能を発揮する。
論文 参考訳(メタデータ) (2021-12-05T13:00:58Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。