論文の概要: What Topological and Geometric Structure Do Biological Foundation Models Learn? Evidence from 141 Hypotheses
- arxiv url: http://arxiv.org/abs/2602.22289v1
- Date: Wed, 25 Feb 2026 14:33:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.35816
- Title: What Topological and Geometric Structure Do Biological Foundation Models Learn? Evidence from 141 Hypotheses
- Title(参考訳): 生物基盤モデルに学ぶトポロジカル・幾何学的構造 : 141仮説から
- Authors: Ihor Kendiukhov,
- Abstract要約: 52回の反復で141の幾何学的および位相的仮説を提案し,検証し,洗練するAI駆動ブレインストーミングループを提案する。
遺伝子埋め込み近傍は非自明なトポロジーを示し、12層のうち11層に持続的ホモロジーが有意である。
scGPTとGeneformerのCCAアライメントは0.80の正準相関と72%の遺伝子検索精度をもたらすが、19の検査方法が確実に遺伝子レベルの対応を回復することはなかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When biological foundation models such as scGPT and Geneformer process single-cell gene expression, what geometric and topological structure forms in their internal representations? Is that structure biologically meaningful or a training artifact, and how confident should we be in such claims? We address these questions through autonomous large-scale hypothesis screening: an AI-driven executor-brainstormer loop that proposed, tested, and refined 141 geometric and topological hypotheses across 52 iterations, covering persistent homology, manifold distances, cross-model alignment, community structure, and directed topology, all with explicit null controls and disjoint gene-pool splits. Three principal findings emerge. First, the models learn genuine geometric structure. Gene embedding neighborhoods exhibit non-trivial topology, with persistent homology significant in 11 of 12 transformer layers at p < 0.05 in the weakest domain and 12 of 12 in the other two. A multi-level distance hierarchy shows that manifold-aware metrics outperform Euclidean distance for identifying regulatory gene pairs, and graph community partitions track known transcription factor target relationships. Second, this structure is shared across independently trained models. CCA alignment between scGPT and Geneformer yields canonical correlation of 0.80 and gene retrieval accuracy of 72 percent, yet none of 19 tested methods reliably recover gene-level correspondences. The models agree on the global shape of gene space but not on precise gene placement. Third, the structure is more localized than it first appears. Under stringent null controls applied across all null families, robust signal concentrates in immune tissue, while lung and external lung signals weaken substantially.
- Abstract(参考訳): scGPTやGeneformerといった生物基盤モデルが単一細胞遺伝子発現をプロセスする場合、その内部表現に幾何的および位相的構造が形成されるか?
その構造は生物学的に意味のあるものなのか、あるいはトレーニングアーティファクトなのでしょうか。
52回にわたる幾何学的およびトポロジ的仮説141を提案、検証、洗練し、永続的ホモロジー、多様体距離、クロスモデルアライメント、コミュニティ構造、有向トポロジを網羅し、明示的なヌル制御と解離した遺伝子プール分割を網羅したAI駆動のエグゼクタ・ブレインストーミングループである。
主な発見は3つある。
まず、モデルは真の幾何学構造を学ぶ。
遺伝子埋め込み近傍は非自明なトポロジーを示し、12の変圧器層のうち11の持続的ホモロジーは、最も弱い領域ではp < 0.05、他の2つの領域では12の持続的ホモロジーである。
マルチレベル距離階層は、調節遺伝子対を特定するためにユークリッド距離を上回っ、グラフコミュニティのパーティションが既知の転写因子のターゲット関係を追跡することを示している。
第二に、この構造は独立に訓練されたモデル間で共有される。
scGPTとGeneformerのCCAアライメントは0.80の正準相関と72%の遺伝子検索精度をもたらすが、19の検査方法が確実に遺伝子レベルの対応を回復することはなかった。
モデルは、遺伝子空間のグローバルな形状に一致するが、正確な遺伝子配置には一致しない。
第3に、構造は最初に現れるよりもより局所化されている。
すべてのヌルファミリーに適用される厳密なヌルコントロールの下では、堅牢なシグナルは免疫組織に集中し、肺と肺のシグナルは著しく弱まる。
関連論文リスト
- Multi-Dimensional Spectral Geometry of Biological Knowledge in Single-Cell Transformer Representations [0.0]
scGPTのような単細胞基盤モデルは高次元の遺伝子表現を学習するが、これらの表現がコードする生物学的知識は未だ不明である。
我々は,ScGPT内部表現の幾何学的構造を63回の自動仮説スクリーニングによって体系的に復号する。
その結果,生物トランスフォーマーは細胞構造の解釈可能な内部モデルを学ぶことが示唆された。
論文 参考訳(メタデータ) (2026-02-24T17:57:59Z) - Spatially Gene Expression Prediction using Dual-Scale Contrastive Learning [12.35331063443348]
NH2STは、空間的コンテキストと、遺伝子発現予測のための病理と遺伝子モダリティの両方を統合している。
我々のモデルは既存の手法を一貫して上回り、PCCメトリクスの20%以上を達成しています。
論文 参考訳(メタデータ) (2025-06-30T13:18:39Z) - Multi-omic Causal Discovery using Genotypes and Gene Expression [0.0]
転写データの祖先関係を推定するための制約に基づく因果アルゴリズムであるGENESISを導入する。
遺伝子型を固定因果アンカーとして統合することにより、genESISは古典因果発見アルゴリズムに「原則的出発」を提供する。
この枠組みは、複雑な形質の因果経路を明らかにするための強力な経路を提供し、機能ゲノム学、薬物発見、精密医療への有望な応用を提供する。
論文 参考訳(メタデータ) (2025-05-21T11:52:23Z) - GRAPE: Heterogeneous Graph Representation Learning for Genetic Perturbation with Coding and Non-Coding Biotype [51.58774936662233]
遺伝子制御ネットワーク(GRN)の構築は、遺伝的摂動の影響を理解し予測するために不可欠である。
本研究では,事前学習した大規模言語モデルとDNAシークエンスモデルを用いて,遺伝子記述やDNAシークエンスデータから特徴を抽出する。
我々は、遺伝子摂動において初めて遺伝子バイオタイプ情報を導入し、細胞プロセスの制御において異なるバイオタイプを持つ遺伝子の異なる役割をシミュレートした。
論文 参考訳(メタデータ) (2025-05-06T03:35:24Z) - PhyloGen: Language Model-Enhanced Phylogenetic Inference via Graph Structure Generation [50.80441546742053]
系統樹は種間の進化的関係を解明する。
伝統的なマルコフ連鎖モンテカルロ法は、緩やかな収束と計算上の負担に直面している。
我々は、事前学習されたゲノム言語モデルを活用する新しい方法であるPhyloGenを提案する。
論文 参考訳(メタデータ) (2024-12-25T08:33:05Z) - $\Gamma$-VAE: Curvature regularized variational autoencoders for
uncovering emergent low dimensional geometric structure in high dimensional
data [0.25128687379089687]
創発的な振る舞いを持つ自然系は、しばしば高次元空間の低次元部分集合に沿って構成される。
生成モデルの曲率を正規化することで、より一貫性があり、予測可能で、一般化可能なモデルを実現できることを示す。
論文 参考訳(メタデータ) (2024-03-02T03:26:09Z) - DynGFN: Towards Bayesian Inference of Gene Regulatory Networks with
GFlowNets [81.75973217676986]
遺伝子調節ネットワーク(GRN)は、遺伝子発現と細胞機能を制御する遺伝子とその産物間の相互作用を記述する。
既存の方法は、チャレンジ(1)、ダイナミックスから循環構造を識別すること、あるいはチャレンジ(2)、DAGよりも複雑なベイズ後部を学習することに焦点を当てるが、両方ではない。
本稿では、RNAベロシティ技術を用いて遺伝子発現の「速度」を推定できるという事実を活用し、両方の課題に対処するアプローチを開発する。
論文 参考訳(メタデータ) (2023-02-08T16:36:40Z) - Unsupervised ensemble-based phenotyping helps enhance the
discoverability of genes related to heart morphology [57.25098075813054]
我々はUn Phenotype Ensemblesという名の遺伝子発見のための新しいフレームワークを提案する。
教師なしの方法で学習された表現型のセットをプールすることで、冗長だが非常に表現性の高い表現を構築する。
これらの表現型は、(GWAS)を介して分析され、高い自信と安定した関連のみを保持する。
論文 参考訳(メタデータ) (2023-01-07T18:36:44Z) - An Integrated Deep Learning and Dynamic Programming Method for
Predicting Tumor Suppressor Genes, Oncogenes, and Fusion from PDB Structures [0.0]
プロトオンコジーン(ONGO)の変異と腫瘍抑制遺伝子(TSG)の制御機能の欠如は、腫瘍増殖を制御していない一般的なメカニズムである。
計算研究を通じてONGOやTSGに関連する遺伝子機能の可能性を見つけることは、疾患を標的とする薬物の開発に役立てることができる。
本稿では,入力された3dタンパク質構造情報から特徴地図集合を抽出する前処理段階から開始する分類法を提案する。
論文 参考訳(メタデータ) (2021-05-17T18:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。