論文の概要: Sparse autoencoders reveal organized biological knowledge but minimal regulatory logic in single-cell foundation models: a comparative atlas of Geneformer and scGPT
- arxiv url: http://arxiv.org/abs/2603.02952v1
- Date: Tue, 03 Mar 2026 13:05:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.802656
- Title: Sparse autoencoders reveal organized biological knowledge but minimal regulatory logic in single-cell foundation models: a comparative atlas of Geneformer and scGPT
- Title(参考訳): スパースオートエンコーダによる単一細胞基盤モデルにおける組織的生物学的知識の解明 : Geneformer と scGPT の比較
- Authors: Ihor Kendiukhov,
- Abstract要約: 単一細胞基盤モデル Geneformer と scGPT は豊富な生物学的情報をエンコードする。
我々はTopK SAEsをGeneformer V2-316M と scGPT 全体の全層からの残流活性化について訓練した。
両機能をインタラクティブなWebプラットフォームとしてリリースし、2つの主要なシングルセル基盤モデルの30層にわたる107000以上の機能の調査を可能にしました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background: Single-cell foundation models such as Geneformer and scGPT encode rich biological information, but whether this includes causal regulatory logic rather than statistical co-expression remains unclear. Sparse autoencoders (SAEs) can resolve superposition in neural networks by decomposing dense activations into interpretable features, yet they have not been systematically applied to biological foundation models. Results: We trained TopK SAEs on residual stream activations from all layers of Geneformer V2-316M (18 layers, d=1152) and scGPT whole-human (12 layers, d=512), producing atlases of 82525 and 24527 features, respectively. Both atlases confirm massive superposition, with 99.8 percent of features invisible to SVD. Systematic characterization reveals rich biological organization: 29 to 59 percent of features annotate to Gene Ontology, KEGG, Reactome, STRING, or TRRUST, with U-shaped layer profiles reflecting hierarchical abstraction. Features organize into co-activation modules (141 in Geneformer, 76 in scGPT), exhibit causal specificity (median 2.36x), and form cross-layer information highways (63 to 99.8 percent). When tested against genome-scale CRISPRi perturbation data, only 3 of 48 transcription factors (6.2 percent) show regulatory-target-specific feature responses. A multi-tissue control yields marginal improvement (10.4 percent, 5 of 48 TFs), establishing model representations as the bottleneck. Conclusions: These models have internalized organized biological knowledge, including pathway membership, protein interactions, functional modules, and hierarchical abstraction, yet they encode minimal causal regulatory logic. We release both feature atlases as interactive web platforms enabling exploration of more than 107000 features across 30 layers of two leading single-cell foundation models.
- Abstract(参考訳): 背景: Geneformer や scGPT のような単一細胞基盤モデルは、リッチな生物学的情報をエンコードするが、統計的共表現よりも因果制御ロジックを含むかどうかは不明である。
スパースオートエンコーダ(SAE)は、高密度活性化を解釈可能な特徴に分解することで、ニューラルネットワークの重ね合わせを解決することができるが、生物学的基礎モデルには体系的に適用されていない。
結果:TopK SAEsはGeneformer V2-316M(18層,d=1152)およびScGPT(12層,d=512)の全層からの残流活性化を訓練し,それぞれ825と24527の特徴を発現した。
どちらのアトラスも巨大な重ね合わせを確認しており、特徴の99.8%はSVDに見えない。
機能のうち29~99%は遺伝子オントロジー、KEGG、Reactome、STRING、TRRUSTで、U字型の層プロファイルは階層的な抽象化を反映している。
特徴は共活性化モジュール(Geneformerで141、 scGPTで76)、因果特異性(median 2.36x)を示し、層間情報ハイウェイ(63から99.8%)を形成する。
ゲノムスケールのCRISPRi摂動データと比較すると、48の転写因子のうちわずか3つ(6.2%)しか調節ターゲット特異的な特徴応答を示していない。
マルチタスク制御は限界改善(10.4%、48 TFの5つ)をもたらし、ボトルネックとしてモデル表現を確立する。
結論: これらのモデルは、経路のメンバーシップ、タンパク質相互作用、機能的モジュール、階層的抽象化を含む組織化された生物学的知識を持つが、最小の因果制御論理をエンコードする。
両機能をインタラクティブなWebプラットフォームとしてリリースし、2つの主要なシングルセル基盤モデルの30層にわたる107000以上の機能の調査を可能にしました。
関連論文リスト
- Causal Circuit Tracing Reveals Distinct Computational Architectures in Single-Cell Foundation Models: Inhibitory Dominance, Biological Coherence, and Cross-Model Convergence [0.0]
SAE特徴と下流応答を損なうことで因果回路をトレースする手法を提案する。
我々はGeneformer V2-316M と scGPT に4つの条件で適用した。
論文 参考訳(メタデータ) (2026-03-02T11:21:44Z) - What Topological and Geometric Structure Do Biological Foundation Models Learn? Evidence from 141 Hypotheses [0.0]
52回の反復で141の幾何学的および位相的仮説を提案し,検証し,洗練するAI駆動ブレインストーミングループを提案する。
遺伝子埋め込み近傍は非自明なトポロジーを示し、12層のうち11層に持続的ホモロジーが有意である。
scGPTとGeneformerのCCAアライメントは0.80の正準相関と72%の遺伝子検索精度をもたらすが、19の検査方法が確実に遺伝子レベルの対応を回復することはなかった。
論文 参考訳(メタデータ) (2026-02-25T14:33:24Z) - Multi-Dimensional Spectral Geometry of Biological Knowledge in Single-Cell Transformer Representations [0.0]
scGPTのような単細胞基盤モデルは高次元の遺伝子表現を学習するが、これらの表現がコードする生物学的知識は未だ不明である。
我々は,ScGPT内部表現の幾何学的構造を63回の自動仮説スクリーニングによって体系的に復号する。
その結果,生物トランスフォーマーは細胞構造の解釈可能な内部モデルを学ぶことが示唆された。
論文 参考訳(メタデータ) (2026-02-24T17:57:59Z) - Learning Cell-Aware Hierarchical Multi-Modal Representations for Robust Molecular Modeling [74.25438319700929]
分子と細胞応答の局所的グローバル依存性をモデル化する堅牢なフレームワークであるCHMR(Cell-aware Hierarchical Multi-modal Representations)を提案する。
728タスクにまたがる9つの公開ベンチマークで評価され、CHMRは最先端のベースラインを上回っている。
その結果, 階層認識型マルチモーダル学習による分子表現の信頼性, 生物学的基盤化の利点が示された。
論文 参考訳(メタデータ) (2025-11-26T07:15:00Z) - A scalable gene network model of regulatory dynamics in single cells [88.48246132084441]
本稿では,遺伝子ネットワーク構造を結合微分方程式に組み込んで,遺伝子制御関数をモデル化する機能的学習可能モデルFLeCSを提案する。
FLeCS は (pseudo) 時系列の単一セルデータから, セルの動態を正確に推定する。
論文 参考訳(メタデータ) (2025-03-25T19:19:21Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Multi-Modal and Multi-Attribute Generation of Single Cells with CFGen [76.02070962797794]
本研究では、単一セルデータ固有の離散性を保存するフローベースの条件生成モデルであるCellFlow for Generation (CFGen)を紹介する。
CFGenは、全ゲノムマルチモーダル単一セルデータを確実に生成し、重要な生物学的データ特性の回復を改善する。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - Tertiary Lymphoid Structures Generation through Graph-based Diffusion [54.37503714313661]
本研究では,最先端のグラフベース拡散モデルを用いて生物学的に意味のある細胞グラフを生成する。
本研究では, グラフ拡散モデルを用いて, 3次リンパ構造(TLS)の分布を正確に学習できることを示す。
論文 参考訳(メタデータ) (2023-10-10T14:37:17Z) - MSW-Transformer: Multi-Scale Shifted Windows Transformer Networks for
12-Lead ECG Classification [6.353064734475176]
マルチウィンドウスライディングアテンション機構を用いて,異なる次元の特徴を捉える単一層トランスフォーマーネットワークを提案する。
学習可能な特徴融合法が提案され、異なるウィンドウの機能を統合してモデル性能をさらに向上する。
提案手法は, PTBXL-2020 12-lead ECGデータセットの5つの分類課題に対して, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-06-21T08:27:26Z) - UNet-2022: Exploring Dynamics in Non-isomorphic Architecture [52.04899592688968]
単純並列化による自己意図と畳み込みの利点を生かした並列非同型ブロックを提案する。
得られたU字型セグメンテーションモデルをUNet-2022と呼ぶ。
実験では、UNet-2022は明らかにレンジセグメンテーションタスクにおいてその性能を上回っている。
論文 参考訳(メタデータ) (2022-10-27T16:00:04Z) - Modelling Technical and Biological Effects in scRNA-seq data with
Scalable GPLVMs [6.708052194104378]
我々は,ガウス過程潜在変数モデルである確率的非線形次元減少に対する一般的なアプローチを拡張し,大規模単一セルデータセットに拡張する。
鍵となる考え方は、高速な変動推論を可能にする下位境界の分解可能性を保存する拡張カーネルを使用することである。
論文 参考訳(メタデータ) (2022-09-14T15:25:15Z) - Cancer Gene Profiling through Unsupervised Discovery [49.28556294619424]
低次元遺伝子バイオマーカーを発見するための,新しい,自動かつ教師なしのフレームワークを提案する。
本手法は,高次元中心型非監視クラスタリングアルゴリズムLP-Stabilityアルゴリズムに基づく。
私達の署名は免疫炎症および免疫砂漠の腫瘍の区別の有望な結果報告します。
論文 参考訳(メタデータ) (2021-02-11T09:04:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。