論文の概要: Parameter-free representations outperform single-cell foundation models on downstream benchmarks
- arxiv url: http://arxiv.org/abs/2602.16696v1
- Date: Wed, 18 Feb 2026 18:42:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.687278
- Title: Parameter-free representations outperform single-cell foundation models on downstream benchmarks
- Title(参考訳): 下流ベンチマークにおけるパラメータフリー表現は単一セル基礎モデルより優れている
- Authors: Huan Souza, Pankaj Mehta,
- Abstract要約: シングルセルRNAシークエンシング(scRNA-seq)データは、強く再現可能な統計構造を示す。
TranscriptFormerのような大規模基盤モデルは、潜在ベクトル空間に遺伝子を埋め込むことで遺伝子発現の生成モデルを学ぶ。
計算集約的な深層学習に基づく表現を使わずに、類似のパフォーマンスが達成できるかどうかを問う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Single-cell RNA sequencing (scRNA-seq) data exhibit strong and reproducible statistical structure. This has motivated the development of large-scale foundation models, such as TranscriptFormer, that use transformer-based architectures to learn a generative model for gene expression by embedding genes into a latent vector space. These embeddings have been used to obtain state-of-the-art (SOTA) performance on downstream tasks such as cell-type classification, disease-state prediction, and cross-species learning. Here, we ask whether similar performance can be achieved without utilizing computationally intensive deep learning-based representations. Using simple, interpretable pipelines that rely on careful normalization and linear methods, we obtain SOTA or near SOTA performance across multiple benchmarks commonly used to evaluate single-cell foundation models, including outperforming foundation models on out-of-distribution tasks involving novel cell types and organisms absent from the training data. Our findings highlight the need for rigorous benchmarking and suggest that the biology of cell identity can be captured by simple linear representations of single cell gene expression data.
- Abstract(参考訳): シングルセルRNAシークエンシング(scRNA-seq)データは、強く再現可能な統計構造を示す。
これによりTranscriptFormerのような大規模な基盤モデルの開発が動機となり、トランスフォーマーベースのアーキテクチャを使って遺伝子を潜在ベクトル空間に埋め込むことで遺伝子発現の生成モデルを学ぶことができる。
これらの埋め込みは、細胞型分類、疾患状態予測、種間学習といった下流タスクにおけるSOTA(State-of-the-art)のパフォーマンスを得るために使われてきた。
ここでは,計算集約的な深層学習に基づく表現を使わずに,類似のパフォーマンスが達成できるかどうかを問う。
注意深い正規化と線形法に依存する単純な解釈可能なパイプラインを用いることで、トレーニングデータから外れた新規な細胞タイプや生物を含む分布外タスクに関する基礎モデルよりも優れた基礎モデルを含む、単細胞基盤モデルを評価するために一般的に使用される複数のベンチマークでSOTAまたはSOTAに近い性能が得られる。
本研究は、厳密なベンチマークの必要性を強調し、単細胞遺伝子発現データの単純な線形表現により、細胞同一性の生物学を捉えることができることを示唆している。
関連論文リスト
- GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Stochastic gradient descent estimation of generalized matrix factorization models with application to single-cell RNA sequencing data [39.146761527401424]
単細胞RNAシークエンシングは、個々の細胞レベルでの遺伝子発現の定量化を可能にする。
次元の減少は、サンプルの可視化、クラスタリング、表現型特徴付けに不可欠な一般的な前処理ステップである。
一般指数分散族分布を仮定した一般化行列分解モデルを提案する。
提案手法は, 数百万セルにシームレスに拡張可能であることを示し, 大規模単一セルデータセットの次元性低減を実現する。
論文 参考訳(メタデータ) (2024-12-29T16:02:15Z) - Multi-Modal and Multi-Attribute Generation of Single Cells with CFGen [76.02070962797794]
本研究では、単一セルデータ固有の離散性を保存するフローベースの条件生成モデルであるCellFlow for Generation (CFGen)を紹介する。
CFGenは、全ゲノムマルチモーダル単一セルデータを確実に生成し、重要な生物学的データ特性の回復を改善する。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - Scalable Amortized GPLVMs for Single Cell Transcriptomics Data [9.010523724015398]
大規模単細胞RNA-seqデータの解析には次元化が不可欠である。
改良されたモデル、償却変分モデル(BGPLVM)を導入する。
BGPLVMは、特殊なエンコーダ、カーネル、そして可能性設計を備えたシングルセルRNA-seq向けに調整されている。
論文 参考訳(メタデータ) (2024-05-06T21:54:38Z) - scBiGNN: Bilevel Graph Representation Learning for Cell Type
Classification from Single-cell RNA Sequencing Data [62.87454293046843]
グラフニューラルネットワーク(GNN)は、セルタイプの自動分類に広く利用されている。
scBiGNNは2つのGNNモジュールから構成され、細胞型を識別する。
scBiGNNは、scRNA-seqデータから細胞型分類のための様々な方法より優れている。
論文 参考訳(メタデータ) (2023-12-16T03:54:26Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。