論文の概要: Scaling Laws for Masked-Reconstruction Transformers on Single-Cell Transcriptomics
- arxiv url: http://arxiv.org/abs/2602.15253v1
- Date: Mon, 16 Feb 2026 23:20:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.935952
- Title: Scaling Laws for Masked-Reconstruction Transformers on Single-Cell Transcriptomics
- Title(参考訳): シングルセルトランスクリプトークスにおけるマスク再構成変圧器のスケーリング法則
- Authors: Ihor Kendiukhov,
- Abstract要約: 単細胞RNAシークエンシングデータに基づいて訓練したマスク型再構成トランスフォーマーのスケーリング行動に関する最初の体系的研究について述べる。
3桁のパラメータ数にまたがる7つのモデルサイズに対して、パラメトリックスケーリング法則を平均二乗誤差(MSE)の検証に適用する。
その結果、自然言語処理に類似したスケーリング法則が、十分なデータが得られれば、単細胞転写学に現れることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural scaling laws -- power-law relationships between loss, model size, and data -- have been extensively documented for language and vision transformers, yet their existence in single-cell genomics remains largely unexplored. We present the first systematic study of scaling behaviour for masked-reconstruction transformers trained on single-cell RNA sequencing (scRNA-seq) data. Using expression profiles from the CELLxGENE Census, we construct two experimental regimes: a data-rich regime (512 highly variable genes, 200,000 cells) and a data-limited regime (1,024 genes, 10,000 cells). Across seven model sizes spanning three orders of magnitude in parameter count (533 to 3.4 x 10^8 parameters), we fit the parametric scaling law to validation mean squared error (MSE). The data-rich regime exhibits clear power-law scaling with an irreducible loss floor of c ~ 1.44, while the data-limited regime shows negligible scaling, indicating that model capacity is not the binding constraint when data are scarce. These results establish that scaling laws analogous to those observed in natural language processing do emerge in single-cell transcriptomics when sufficient data are available, and they identify the data-to-parameter ratio as a critical determinant of scaling behaviour. A preliminary conversion of the data-rich asymptotic floor to information-theoretic units yields an estimate of approximately 2.30 bits of entropy per masked gene position. We discuss implications for the design of single-cell foundation models and outline the additional measurements needed to refine this entropy estimate.
- Abstract(参考訳): 損失、モデルサイズ、データの間の電力-法則は、言語と視覚変換器のために広く文書化されてきたが、単一セルゲノム学におけるそれらの存在はほとんど解明されていない。
単細胞RNAシークエンシング(scRNA-seq)データに基づいて訓練したマスク再構成トランスフォーマーのスケーリング行動に関する最初の系統的研究について述べる。
CellxGENE Censusの表現プロファイルを用いて、データリッチレジーム(512の高度に可変な遺伝子、200,000の細胞)とデータ制限レジーム(1,024の遺伝子、10,000の細胞)という2つの実験的なレジームを構築した。
3桁のパラメータ数(533から3.4×10^8のパラメータ)にまたがる7つのモデルサイズで、パラメトリックスケーリング法則を平均二乗誤差(MSE)の検証に適用する。
データリッチレジームは、c ~ 1.44の既約損失フロアを持つ明確なパワーロースケーリングを示し、一方、データ制限レジームは無視可能なスケーリングを示し、データ不足時にモデルキャパシティがバインディング制約ではないことを示す。
これらの結果から, 自然言語処理に類似するスケーリング法則が, 十分なデータが得られる場合, 単一セル転写学に現れることが確認され, スケーリング行動の重要な決定要因としてデータ-パラメータ比が同定された。
データリッチな漸近的なフロアを情報理論単位に事前変換すると、マスクされた遺伝子位置あたりのエントロピーは約2.30ビットと推定される。
本稿では, 単一セル基礎モデルの設計の意義を論じ, このエントロピー推定を洗練させるために必要な追加測定値について概説する。
関連論文リスト
- A scalable gene network model of regulatory dynamics in single cells [88.48246132084441]
本稿では,遺伝子ネットワーク構造を結合微分方程式に組み込んで,遺伝子制御関数をモデル化する機能的学習可能モデルFLeCSを提案する。
FLeCS は (pseudo) 時系列の単一セルデータから, セルの動態を正確に推定する。
論文 参考訳(メタデータ) (2025-03-25T19:19:21Z) - Training Compute-Optimal Protein Language Models [48.79416103951816]
ほとんどのタンパク質言語モデルは、パフォーマンスが高くなるまで広範囲の計算資源で訓練されている。
調査は、9億3900万のタンパク質配列からなる膨大なデータセットに基づいて行われた。
私たちは、350万から107億のパラメータから5から200億のユニークなトークンまで、300以上のモデルをトレーニングしました。
論文 参考訳(メタデータ) (2024-11-04T14:58:37Z) - Large-Scale Targeted Cause Discovery via Learning from Simulated Data [66.51307552703685]
本稿では,観測結果から対象変数の因果変数を推定する機械学習手法を提案する。
我々は、シミュレートされたデータに基づいて教師あり学習を用いてニューラルネットワークを訓練し、因果関係を推定する。
大規模遺伝子制御ネットワークにおける因果関係の同定に優れた性能を示す実験結果が得られた。
論文 参考訳(メタデータ) (2024-08-29T02:21:11Z) - sc-OTGM: Single-Cell Perturbation Modeling by Solving Optimal Mass Transport on the Manifold of Gaussian Mixtures [0.9674145073701153]
sc-OTGMは、scRNAseqデータが生成される誘導バイアスに基づく教師なしモデルである。
sc-OTGMは細胞状態の分類、異なる遺伝子発現の解析、標的同定のための遺伝子ランキングに有効である。
また、下流遺伝子制御に対する単一遺伝子の摂動の影響を予測し、特定の細胞状態に条件付けられた合成scRNA-seqデータを生成する。
論文 参考訳(メタデータ) (2024-05-06T06:46:11Z) - xTrimoGene: An Efficient and Scalable Representation Learner for
Single-Cell RNA-Seq Data [45.043516102428676]
我々は、xTrimoGene$alpha$(略してxTrimoGene)と呼ばれる、cRNA-seqデータのための新しい非対称エンコーダデコーダトランスを提案する。
xTrimoGeneは、高い精度を維持しながら、古典的なトランスフォーマーと比較して、FLOPを1~2桁削減する。
また,モデルサイズをスケールアップすることで,xTrimoGeneの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-11-26T01:23:01Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - Modelling Technical and Biological Effects in scRNA-seq data with
Scalable GPLVMs [6.708052194104378]
我々は,ガウス過程潜在変数モデルである確率的非線形次元減少に対する一般的なアプローチを拡張し,大規模単一セルデータセットに拡張する。
鍵となる考え方は、高速な変動推論を可能にする下位境界の分解可能性を保存する拡張カーネルを使用することである。
論文 参考訳(メタデータ) (2022-09-14T15:25:15Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。