論文の概要: scUnified: An AI-Ready Standardized Resource for Single-Cell RNA Sequencing Analysis
- arxiv url: http://arxiv.org/abs/2509.25884v1
- Date: Tue, 30 Sep 2025 07:23:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.465996
- Title: scUnified: An AI-Ready Standardized Resource for Single-Cell RNA Sequencing Analysis
- Title(参考訳): scUnified:シングルセルRNAシークエンシング分析のためのAI対応標準リソース
- Authors: Ping Xu, Zaitian Wang, Zhirui Wang, Pengjiang Li, Ran Zhang, Gaoyang Li, Hanyu Xie, Jiajia Wang, Yuanchun Zhou, Pengfei Wang,
- Abstract要約: 我々は、シングルセルRNAシークエンシングデータのための、AI対応の標準リソース scUnified を提案する。
scUnified Consolided to 13 high-quality datasets across two species and 9 tissue types。
- 参考スコア(独自算出の注目度): 23.973638982075016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single-cell RNA sequencing (scRNA-seq) technology enables systematic delineation of cellular states and interactions, providing crucial insights into cellular heterogeneity. Building on this potential, numerous computational methods have been developed for tasks such as cell clustering, cell type annotation, and marker gene identification. To fully assess and compare these methods, standardized, analysis-ready datasets are essential. However, such datasets remain scarce, and variations in data formats, preprocessing workflows, and annotation strategies hinder reproducibility and complicate systematic evaluation of existing methods. To address these challenges, we present scUnified, an AI-ready standardized resource for single-cell RNA sequencing data that consolidates 13 high-quality datasets spanning two species (human and mouse) and nine tissue types. All datasets undergo standardized quality control and preprocessing and are stored in a uniform format to enable direct application in diverse computational analyses without additional data cleaning. We further demonstrate the utility of scUnified through experimental analyses of representative biological tasks, providing a reproducible foundation for the standardized evaluation of computational methods on a unified dataset.
- Abstract(参考訳): 単細胞RNAシークエンシング(scRNA-seq)技術は、細胞状態と相互作用の系統的記述を可能にし、細胞不均一性に関する重要な洞察を与える。
この可能性に基づいて、細胞クラスタリング、細胞型アノテーション、マーカー遺伝子同定といったタスクのために多くの計算手法が開発されている。
これらの手法を十分に評価し比較するためには、標準化された分析可能なデータセットが不可欠である。
しかし、そのようなデータセットは依然として不足しており、データフォーマット、前処理ワークフロー、アノテーション戦略のバリエーションによって再現性が損なわれ、既存の手法の体系的な評価が複雑になる。
これらの課題に対処するため、scUnifiedは、単細胞RNAシークエンシングデータのためのAI対応の標準化されたリソースで、2つの種(ヒトとマウス)と9種類の組織にまたがる13の高品質データセットを統合する。
すべてのデータセットは、標準化された品質制御と前処理を実行し、統一されたフォーマットで保存され、追加のデータクリーニングなしに、様々な計算分析に直接適用することができる。
さらに、代表的生物学的タスクを実験的に分析し、統一されたデータセット上での計算手法の標準化評価のための再現可能な基礎を提供する。
関連論文リスト
- DeepSeq: High-Throughput Single-Cell RNA Sequencing Data Labeling via Web Search-Augmented Agentic Generative AI Foundation Models [0.0]
生成AI基盤モデルは、構造化された生物学的データを処理するための変換ポテンシャルを提供する。
本稿では,実時間Web検索を用いたエージェント基礎モデルを用いて実験データのラベル付けを自動化し,最大82.5%の精度を実現することを提案する。
論文 参考訳(メタデータ) (2025-06-14T23:30:22Z) - scDD: Latent Codes Based scRNA-seq Dataset Distillation with Foundation Model Knowledge [14.12713117447183]
単細胞RNAシークエンシング(scRNA-seq)は、これまで、臓器、疾患、発達、摂動にまたがる何十億ものヒト細胞をプロファイル化してきた。
高次元のスパーシリティ、バッチ効果ノイズ、カテゴリー不均衡、そして絶え間なく増加するデータスケールは、マルチセンタの知識伝達、データ融合、およびクロスバリデーションの課題を提起する。
我々は,基礎モデル知識と原データセット情報をコンパクトな潜伏空間に蒸留する,SCDDと呼ばれる潜伏コードに基づくScRNA-seqデータセット蒸留フレームワークを提案する。
また,SCDGと呼ばれる単一ステップの条件付き拡散発生器を提案し,単一ステップで動作させる。
論文 参考訳(メタデータ) (2025-03-06T12:01:20Z) - Single-Cell Omics Arena: A Benchmark Study for Large Language Models on Cell Type Annotation Using Single-Cell Data [13.56585855722118]
大規模言語モデル(LLM)は、テキストの膨大なコーパスを効率的に処理し、合成し、生物学的知識を自動的に抽出する能力を実証している。
本研究は、単一細胞RNAシークエンシング(scRNA-seq)データにおいて、細胞型を正確に分類し、アノテートするLLMの可能性を探るものである。
以上の結果から,LCMは微調整を必要とせずに単一セルデータの堅牢な解釈を実現できることが示された。
論文 参考訳(メタデータ) (2024-12-03T23:58:35Z) - Multi-Modal and Multi-Attribute Generation of Single Cells with CFGen [76.02070962797794]
本研究では、単一セルデータ固有の離散性を保存するフローベースの条件生成モデルであるCellFlow for Generation (CFGen)を紹介する。
CFGenは、全ゲノムマルチモーダル単一セルデータを確実に生成し、重要な生物学的データ特性の回復を改善する。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - UniCell: Universal Cell Nucleus Classification via Prompt Learning [76.11864242047074]
ユニバーサル細胞核分類フレームワーク(UniCell)を提案する。
異なるデータセットドメインから対応する病理画像のカテゴリを均一に予測するために、新しいプロンプト学習機構を採用している。
特に,本フレームワークでは,原子核検出と分類のためのエンドツーエンドアーキテクチャを採用し,フレキシブルな予測ヘッドを用いて様々なデータセットを適応する。
論文 参考訳(メタデータ) (2024-02-20T11:50:27Z) - Single-Cell Deep Clustering Method Assisted by Exogenous Gene
Information: A Novel Approach to Identifying Cell Types [50.55583697209676]
我々は,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。
クラスタリング過程において,両情報の集合を統合し,細胞と遺伝子の特徴を再構成し,識別的表現を生成する。
本研究は、細胞の特徴と分布に関する知見を高め、疾患の早期診断と治療の基礎となる。
論文 参考訳(メタデータ) (2023-11-28T09:14:55Z) - Is your data alignable? Principled and interpretable alignability
testing and integration of single-cell data [24.457344926393397]
単細胞データ統合は、細胞の包括的な分子ビューを提供する。
既存の方法にはいくつかの基本的な制限がある。
スペクトル多様体アライメントと推論の枠組みを提案する。
論文 参考訳(メタデータ) (2023-08-03T16:04:14Z) - Fast and Functional Structured Data Generators Rooted in Out-of-Equilibrium Physics [44.97217246897902]
エネルギーモデルを用いて、構造化データセットで高品質なラベル特化データを生成するという課題に対処する。
伝統的な訓練方法は、マルコフ連鎖モンテカルロ混合による困難に遭遇する。
非平衡効果を利用した新しいトレーニングアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-07-13T15:08:44Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z) - Review of Single-cell RNA-seq Data Clustering for Cell Type
Identification and Characterization [12.655970720359297]
教師なし学習は、新しい細胞タイプと遺伝子発現パターンを識別し、特徴付ける中心的な要素となっている。
本稿では,既存の単一セルRNA-seqデータクラスタリング手法について概説する。
そこで本研究では,2つの単一セルRNA-seqクラスタリング手法の性能比較実験を行った。
論文 参考訳(メタデータ) (2020-01-03T22:48:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。