論文の概要: Parameter-free representations outperform single-cell foundation models on downstream benchmarks
- arxiv url: http://arxiv.org/abs/2602.16696v1
- Date: Wed, 18 Feb 2026 18:42:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.687278
- Title: Parameter-free representations outperform single-cell foundation models on downstream benchmarks
- Title(参考訳): 下流ベンチマークにおけるパラメータフリー表現は単一セル基礎モデルより優れている
- Authors: Huan Souza, Pankaj Mehta,
- Abstract要約: シングルセルRNAシークエンシング(scRNA-seq)データは、強く再現可能な統計構造を示す。
TranscriptFormerのような大規模基盤モデルは、潜在ベクトル空間に遺伝子を埋め込むことで遺伝子発現の生成モデルを学ぶ。
計算集約的な深層学習に基づく表現を使わずに、類似のパフォーマンスが達成できるかどうかを問う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Single-cell RNA sequencing (scRNA-seq) data exhibit strong and reproducible statistical structure. This has motivated the development of large-scale foundation models, such as TranscriptFormer, that use transformer-based architectures to learn a generative model for gene expression by embedding genes into a latent vector space. These embeddings have been used to obtain state-of-the-art (SOTA) performance on downstream tasks such as cell-type classification, disease-state prediction, and cross-species learning. Here, we ask whether similar performance can be achieved without utilizing computationally intensive deep learning-based representations. Using simple, interpretable pipelines that rely on careful normalization and linear methods, we obtain SOTA or near SOTA performance across multiple benchmarks commonly used to evaluate single-cell foundation models, including outperforming foundation models on out-of-distribution tasks involving novel cell types and organisms absent from the training data. Our findings highlight the need for rigorous benchmarking and suggest that the biology of cell identity can be captured by simple linear representations of single cell gene expression data.
- Abstract(参考訳): シングルセルRNAシークエンシング(scRNA-seq)データは、強く再現可能な統計構造を示す。
これによりTranscriptFormerのような大規模な基盤モデルの開発が動機となり、トランスフォーマーベースのアーキテクチャを使って遺伝子を潜在ベクトル空間に埋め込むことで遺伝子発現の生成モデルを学ぶことができる。
これらの埋め込みは、細胞型分類、疾患状態予測、種間学習といった下流タスクにおけるSOTA(State-of-the-art)のパフォーマンスを得るために使われてきた。
ここでは,計算集約的な深層学習に基づく表現を使わずに,類似のパフォーマンスが達成できるかどうかを問う。
注意深い正規化と線形法に依存する単純な解釈可能なパイプラインを用いることで、トレーニングデータから外れた新規な細胞タイプや生物を含む分布外タスクに関する基礎モデルよりも優れた基礎モデルを含む、単細胞基盤モデルを評価するために一般的に使用される複数のベンチマークでSOTAまたはSOTAに近い性能が得られる。
本研究は、厳密なベンチマークの必要性を強調し、単細胞遺伝子発現データの単純な線形表現により、細胞同一性の生物学を捉えることができることを示唆している。
関連論文リスト
- Cell2Text: Multimodal LLM for Generating Single-Cell Descriptions from RNA-Seq Data [17.440176654185095]
我々は、cRNA-seqプロファイルを構造化された自然言語記述に変換するフレームワークであるCell2Textを紹介する。
遺伝子レベルの埋め込みと事前訓練された大きな言語モデルを統合することで、Cell2Textは、細胞のアイデンティティ、組織の起源、疾患関連、経路活性をキャプチャするコヒーレントな要約を生成する。
論文 参考訳(メタデータ) (2025-09-29T14:20:50Z) - Hyperbolic Genome Embeddings [0.6656737591902598]
我々は,生物系の進化的インフォームド構造を利用した,双曲型CNNの新しい応用法を開発した。
我々の戦略は、配列の重要な性質を識別しながら、明示的な系統マッピングの必要性を回避するものである。
われわれの手法は、7つのGUEベンチマークデータセットの最先端性能を超えている。
論文 参考訳(メタデータ) (2025-07-29T10:06:17Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Stochastic gradient descent estimation of generalized matrix factorization models with application to single-cell RNA sequencing data [39.146761527401424]
単細胞RNAシークエンシングは、個々の細胞レベルでの遺伝子発現の定量化を可能にする。
次元の減少は、サンプルの可視化、クラスタリング、表現型特徴付けに不可欠な一般的な前処理ステップである。
一般指数分散族分布を仮定した一般化行列分解モデルを提案する。
提案手法は, 数百万セルにシームレスに拡張可能であることを示し, 大規模単一セルデータセットの次元性低減を実現する。
論文 参考訳(メタデータ) (2024-12-29T16:02:15Z) - Multi-Modal and Multi-Attribute Generation of Single Cells with CFGen [76.02070962797794]
本研究では、単一セルデータ固有の離散性を保存するフローベースの条件生成モデルであるCellFlow for Generation (CFGen)を紹介する。
CFGenは、全ゲノムマルチモーダル単一セルデータを確実に生成し、重要な生物学的データ特性の回復を改善する。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - BEACON: Benchmark for Comprehensive RNA Tasks and Language Models [60.02663015002029]
本稿では、最初の包括的なRNAベンチマークBEACON(textbfBEnchmtextbfArk for textbfCOmprehensive RtextbfNA Task and Language Models)を紹介する。
まずBEACONは、構造解析、機能研究、工学的応用を網羅した、これまでの広範囲にわたる研究から導かれた13のタスクから構成される。
第2に、CNNのような従来のアプローチや、言語モデルに基づく高度なRNA基盤モデルなど、さまざまなモデルについて検討し、これらのモデルのタスク固有のパフォーマンスに関する貴重な洞察を提供する。
第3に、重要なRNA言語モデルコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-14T19:39:19Z) - Scalable Amortized GPLVMs for Single Cell Transcriptomics Data [9.010523724015398]
大規模単細胞RNA-seqデータの解析には次元化が不可欠である。
改良されたモデル、償却変分モデル(BGPLVM)を導入する。
BGPLVMは、特殊なエンコーダ、カーネル、そして可能性設計を備えたシングルセルRNA-seq向けに調整されている。
論文 参考訳(メタデータ) (2024-05-06T21:54:38Z) - scBiGNN: Bilevel Graph Representation Learning for Cell Type
Classification from Single-cell RNA Sequencing Data [62.87454293046843]
グラフニューラルネットワーク(GNN)は、セルタイプの自動分類に広く利用されている。
scBiGNNは2つのGNNモジュールから構成され、細胞型を識別する。
scBiGNNは、scRNA-seqデータから細胞型分類のための様々な方法より優れている。
論文 参考訳(メタデータ) (2023-12-16T03:54:26Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。