論文の概要: Multi-Dimensional Spectral Geometry of Biological Knowledge in Single-Cell Transformer Representations
- arxiv url: http://arxiv.org/abs/2602.22247v1
- Date: Tue, 24 Feb 2026 17:57:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.323764
- Title: Multi-Dimensional Spectral Geometry of Biological Knowledge in Single-Cell Transformer Representations
- Title(参考訳): 単セル変圧器表現における生体知識の多次元スペクトル幾何学
- Authors: Ihor Kendiukhov,
- Abstract要約: scGPTのような単細胞基盤モデルは高次元の遺伝子表現を学習するが、これらの表現がコードする生物学的知識は未だ不明である。
我々は,ScGPT内部表現の幾何学的構造を63回の自動仮説スクリーニングによって体系的に復号する。
その結果,生物トランスフォーマーは細胞構造の解釈可能な内部モデルを学ぶことが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Single-cell foundation models such as scGPT learn high-dimensional gene representations, but what biological knowledge these representations encode remains unclear. We systematically decode the geometric structure of scGPT internal representations through 63 iterations of automated hypothesis screening (183 hypotheses tested), revealing that the model organizes genes into a structured biological coordinate system rather than an opaque feature space. The dominant spectral axis separates genes by subcellular localization, with secreted proteins at one pole and cytosolic proteins at the other. Intermediate transformer layers transiently encode mitochondrial and ER compartments in a sequence that mirrors the cellular secretory pathway. Orthogonal axes encode protein-protein interaction networks with graded fidelity to experimentally measured interaction strength (Spearman rho = 1.000 across n = 5 STRING confidence quintiles, p = 0.017). In a compact six-dimensional spectral subspace, the model distinguishes transcription factors from their target genes (AUROC = 0.744, all 12 layers significant). Early layers preserve which specific genes regulate which targets, while deeper layers compress this into a coarser regulator versus regulated distinction. Repression edges are geometrically more prominent than activation edges, and B-cell master regulators BATF and BACH2 show convergence toward the B-cell identity anchor PAX5 across transformer depth. Cell-type marker genes cluster with high fidelity (AUROC = 0.851). Residual-stream geometry encodes biological structure complementary to attention patterns. These results indicate that biological transformers learn an interpretable internal model of cellular organization, with implications for regulatory network inference, drug target prioritization, and model auditing.
- Abstract(参考訳): scGPTのような単細胞基盤モデルは高次元の遺伝子表現を学習するが、これらの表現がコードする生物学的知識は未だ不明である。
我々は,ScGPT内部表現の幾何学的構造を63回の自動仮説スクリーニング(183仮説)を通して体系的にデコードし,不透明な特徴空間ではなく,構造的生物学的座標系に遺伝子を編成することを明らかにする。
支配的なスペクトル軸は、細胞内局在により遺伝子を分離し、一方の極に分泌タンパク質、もう一方の極に細胞質タンパク質を持つ。
中間変圧器層はミトコンドリアとERの区画を一過性にコードし、細胞分泌経路を反映している。
直交軸はタンパク質とタンパク質の相互作用ネットワークを段階的忠実度でコードし、実験的に相互作用強度を測定する(Spearman rho = 1.000 across n = 5 STRING confidence quintiles, p = 0.017)。
コンパクトな6次元スペクトル部分空間において、このモデルは転写因子を標的遺伝子と区別する(AUROC = 0.744, all 12 layer significant)。
初期の層はどの特定の遺伝子がどの標的を調節するかを保ち、より深い層はそれを粗い調節因子に圧縮する。
抑制エッジは活性化エッジよりも幾何的に顕著であり、B細胞マスターレギュレータBATFとBACH2はトランスフォーマー深さを越えてB細胞アイデンティティアンカーPAX5に収束している。
高忠実度細胞型マーカー遺伝子群(AUROC = 0.851)。
残留ストリーム幾何学は、注意パターンを補完する生物学的構造を符号化する。
これらの結果は、生物学的トランスフォーマーが、制御ネットワーク推論、薬物標的優先順位付け、モデル監査といった、細胞組織の解釈可能な内部モデルを学ぶことを示唆している。
関連論文リスト
- What Topological and Geometric Structure Do Biological Foundation Models Learn? Evidence from 141 Hypotheses [0.0]
52回の反復で141の幾何学的および位相的仮説を提案し,検証し,洗練するAI駆動ブレインストーミングループを提案する。
遺伝子埋め込み近傍は非自明なトポロジーを示し、12層のうち11層に持続的ホモロジーが有意である。
scGPTとGeneformerのCCAアライメントは0.80の正準相関と72%の遺伝子検索精度をもたらすが、19の検査方法が確実に遺伝子レベルの対応を回復することはなかった。
論文 参考訳(メタデータ) (2026-02-25T14:33:24Z) - STRAND: Sequence-Conditioned Transport for Single-Cell Perturbations [31.08466183513241]
STRANDは、制御DNA配列の条件付けによって単一細胞の応答を予測する生成モデルである。
配列による摂動を表現することは、遺伝子識別子の固定セットではなく、訓練中に見えないlociでのゼロショット推論をサポートする。
K562, Jurkat, RPE1細胞におけるCRISPR摂動データセットのSTRANDを評価する。
論文 参考訳(メタデータ) (2026-02-10T00:57:38Z) - Central Dogma Transformer: Towards Mechanism-Oriented AI for Cellular Understanding [0.0]
本稿では,DNA,RNA,タンパク質の事前学習言語モデルを統合するアーキテクチャであるCentral Dogma Transformer(CDT)を紹介する。
我々は, K562細胞のCRISPRiエンハンサー摂動データに対するCDT v1の有効性を検証し, Pearson相関を0.503。
これらの結果から,生物情報の流れに沿ったAIアーキテクチャは,予測精度と機械的解釈可能性の両方を達成できることが示唆された。
論文 参考訳(メタデータ) (2026-01-03T06:29:22Z) - Conditional Morphogenesis: Emergent Generation of Structural Digits via Neural Cellular Automata [0.0]
本研究では,単一種から異なるトポロジカル構造を成長させることができる条件付きニューラルセルオートマタアーキテクチャを提案する。
ワンホット条件を細胞知覚場に注入することにより、一組の局所規則が対称性を破り、自己集合を10個の異なる幾何学的誘引子に分解することを学ぶことができる。
論文 参考訳(メタデータ) (2025-12-09T08:36:54Z) - Tensor Network based Gene Regulatory Network Inference for Single-Cell Transcriptomic Data [0.0]
本研究では、テンソルネットワーク(TN)を利用して表現データを最適にマッピングする量子インスピレーションフレームワークを提案する。
遺伝子依存を定量化し、置換試験により統計的意義を確立する。
量子物理学にインスパイアされた手法と計算生物学を融合することにより,遺伝子制御に関する新たな知見を提供する。
論文 参考訳(メタデータ) (2025-09-08T17:11:12Z) - UniGenX: a unified generative foundation model that couples sequence, structure and function to accelerate scientific design across proteins, molecules and materials [62.72989417755985]
自然系における関数の統一生成モデルUniGenXを提案する。
UniGenXはシンボルトークンと数値トークンの混合ストリームとして異種入力を表す。
ドメイン間のファンクション・アウェア・ジェネレーションに対して、最先端または競合的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-09T16:43:07Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Single-Cell Deep Clustering Method Assisted by Exogenous Gene
Information: A Novel Approach to Identifying Cell Types [50.55583697209676]
我々は,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。
クラスタリング過程において,両情報の集合を統合し,細胞と遺伝子の特徴を再構成し,識別的表現を生成する。
本研究は、細胞の特徴と分布に関する知見を高め、疾患の早期診断と治療の基礎となる。
論文 参考訳(メタデータ) (2023-11-28T09:14:55Z) - Granger causal inference on DAGs identifies genomic loci regulating
transcription [77.58911272503771]
GrID-Netは、DBG構造化システムにおけるGranger因果推論のためのラタグメッセージパッシングを備えたグラフニューラルネットワークに基づくフレームワークである。
我々の応用は、特定の遺伝子の調節を仲介するゲノム座を同定する単一セルマルチモーダルデータの解析である。
論文 参考訳(メタデータ) (2022-10-18T21:15:10Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - Growing Isotropic Neural Cellular Automata [63.91346650159648]
我々は、元のGrowing NCAモデルには、学習された更新規則の異方性という重要な制限があると主張している。
細胞系は2つの方法のいずれかによって、正確な非対称パターンを成長させる訓練が可能であることを実証する。
論文 参考訳(メタデータ) (2022-05-03T11:34:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。