論文の概要: scDD: Latent Codes Based scRNA-seq Dataset Distillation with Foundation Model Knowledge
- arxiv url: http://arxiv.org/abs/2503.04357v1
- Date: Thu, 06 Mar 2025 12:01:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:01:07.337363
- Title: scDD: Latent Codes Based scRNA-seq Dataset Distillation with Foundation Model Knowledge
- Title(参考訳): scDD: 基礎モデル知識を用いた潜伏コードに基づくscRNA-seqデータセット蒸留
- Authors: Zhen Yu, Jianan Han, Yang Liu, Qingchao Chen,
- Abstract要約: 単細胞RNAシークエンシング(scRNA-seq)は、これまで、臓器、疾患、発達、摂動にまたがる何十億ものヒト細胞をプロファイル化してきた。
高次元のスパーシリティ、バッチ効果ノイズ、カテゴリー不均衡、そして絶え間なく増加するデータスケールは、マルチセンタの知識伝達、データ融合、およびクロスバリデーションの課題を提起する。
我々は,基礎モデル知識と原データセット情報をコンパクトな潜伏空間に蒸留する,SCDDと呼ばれる潜伏コードに基づくScRNA-seqデータセット蒸留フレームワークを提案する。
また,SCDGと呼ばれる単一ステップの条件付き拡散発生器を提案し,単一ステップで動作させる。
- 参考スコア(独自算出の注目度): 14.12713117447183
- License:
- Abstract: Single-cell RNA sequencing (scRNA-seq) technology has profiled hundreds of millions of human cells across organs, diseases, development and perturbations to date. However, the high-dimensional sparsity, batch effect noise, category imbalance, and ever-increasing data scale of the original sequencing data pose significant challenges for multi-center knowledge transfer, data fusion, and cross-validation between scRNA-seq datasets. To address these barriers, (1) we first propose a latent codes-based scRNA-seq dataset distillation framework named scDD, which transfers and distills foundation model knowledge and original dataset information into a compact latent space and generates synthetic scRNA-seq dataset by a generator to replace the original dataset. Then, (2) we propose a single-step conditional diffusion generator named SCDG, which perform single-step gradient back-propagation to help scDD optimize distillation quality and avoid gradient decay caused by multi-step back-propagation. Meanwhile, SCDG ensures the scRNA-seq data characteristics and inter-class discriminability of the synthetic dataset through flexible conditional control and generation quality assurance. Finally, we propose a comprehensive benchmark to evaluate the performance of scRNA-seq dataset distillation in different data analysis tasks. It is validated that our proposed method can achieve 7.61% absolute and 15.70% relative improvement over previous state-of-the-art methods on average task.
- Abstract(参考訳): 単細胞RNAシークエンシング(scRNA-seq)技術は、これまで、臓器、疾患、発達、摂動にまたがる何十億ものヒト細胞をプロファイル化してきた。
しかし、もともとのシークエンシングデータの高次元空間性、バッチ効果ノイズ、カテゴリー不均衡、そして絶え間なく増大するデータスケールは、マルチセンタの知識伝達、データ融合、およびscRNA-seqデータセット間の相互検証に重大な課題をもたらす。
これらの障壁に対処するために,(1)まず,基礎モデル知識と原データセット情報をコンパクトな潜在空間に転送・蒸留し,原データセットを置き換えるためにジェネレータにより合成したScRNA-seqデータセットを生成するSCDDという潜在コードベースのScRNA-seqデータセット蒸留フレームワークを提案する。
次に,SCDGと呼ばれる単一段階の条件付き拡散発生器を提案する。これは,SCDが蒸留品質を最適化し,多段階のバックプロパゲーションによる勾配減衰を回避するために,単段階の勾配バックプロパゲーションを行う。
一方、SCDGは、フレキシブルな条件制御と生成品質保証を通じて、合成データセットのscRNA-seqデータ特性とクラス間識別性を保証する。
最後に, 異なるデータ解析タスクにおいて, scRNA-seqデータセット蒸留の性能を評価するための総合的ベンチマークを提案する。
提案手法は従来よりも7.61%の絶対値と15.70%の相対的な改善を達成できることを確認した。
関連論文リスト
- Not All Samples Should Be Utilized Equally: Towards Understanding and Improving Dataset Distillation [57.6797306341115]
我々は,サンプル難易度の観点から,マッチングに基づくDD手法の理解に向けて最初の一歩を踏み出した。
次に、データプルーニングのニューラルネットワークスケーリング法則をDDに拡張し、これらのマッチングベースの手法を理論的に説明する。
SDC(Sampple Difficulty Correction)アプローチを導入し、より簡単なサンプルを生成して、より高いデータセット品質を実現する。
論文 参考訳(メタデータ) (2024-08-22T15:20:32Z) - Improving Grammatical Error Correction via Contextual Data Augmentation [49.746484518527716]
本研究では,文脈拡張に基づく合成データ構築手法を提案する。
具体的には、ルールベースの置換とモデルベースの生成を組み合わせる。
また,合成データにおけるノイズラベルの効果を軽減するために,レザベリングに基づくデータクリーニング手法を提案する。
論文 参考訳(メタデータ) (2024-06-25T10:49:56Z) - scRDiT: Generating single-cell RNA-seq data by diffusion transformers and accelerating sampling [9.013834280011293]
シングルセルRNAシークエンシング(英: Single-cell RNA Sequencing、scRNA-seq)は、生物研究で広く利用されている基盤技術である。
本研究は、scRDiT(scRNA-seq Diffusion Transformer)と呼ばれる生成的アプローチを紹介する。
この方法は、実際のデータセットを活用して、仮想scRNA-seqデータを生成する。
論文 参考訳(メタデータ) (2024-04-09T09:25:16Z) - SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised
Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。
Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。
赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-08T16:14:54Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - scDiffusion: conditional generation of high-quality single-cell data
using diffusion model [1.0738561302102216]
単細胞RNAシークエンシング(scRNA-seq)データは、単細胞レベルでの生命の法則を研究する上で重要である。
十分な高品質の scRNA-seq データを取得することは依然として困難である。
拡散モデルと基礎モデルを組み合わせた生成モデルである scDiffusion を開発し,高品質な scRNA-seq データを生成する。
論文 参考訳(メタデータ) (2024-01-08T15:44:39Z) - Optirank: classification for RNA-Seq data with optimal ranking reference
genes [0.0]
そこで我々は,ロジスティック回帰モデルであるOptiicrankを提案し,モデルと遺伝子のパラメータを同時に学習し,ランキングの基準セットとして使用する。
また、列車データと試験データの間に異なる種類の分散シフトを示す実際の分類タスクについても検討する。
論文 参考訳(メタデータ) (2023-01-11T10:49:06Z) - ScRAE: Deterministic Regularized Autoencoders with Flexible Priors for
Clustering Single-cell Gene Expression Data [11.511172015076532]
シングルセルRNA配列(scRNA-seq)のクラスタリングは、統計的および計算上の課題を引き起こす。
正規化オートエンコーダ(RAE)ベースのディープニューラルネットワークモデルは、ロバストな低次元表現の学習において大きな成功を収めている。
単一セルRNAシークエンシングデータの効果的なクラスタリングのためのRAEフレームワーク( scRAE と呼ばれる)を提案する。
論文 参考訳(メタデータ) (2021-07-16T05:13:31Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Approximate kNN Classification for Biomedical Data [1.1852406625172218]
Single-cell RNA-seq (scRNA-seq) は、将来性はあるが重要な計算課題を持つDNAシークエンシング技術である。
scRNA-seqデータにおけるkNN分類のタスクに近似した近接探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-03T18:30:43Z) - TadGAN: Time Series Anomaly Detection Using Generative Adversarial
Networks [73.01104041298031]
TadGANは、GAN(Generative Adversarial Networks)上に構築された教師なしの異常検出手法である。
時系列の時間相関を捉えるために,ジェネレータと批評家のベースモデルとしてLSTMリカレントニューラルネットワークを用いる。
提案手法の性能と一般化性を示すため,いくつかの異常スコアリング手法を検証し,最も適した手法を報告する。
論文 参考訳(メタデータ) (2020-09-16T15:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。