論文の概要: Central Dogma Transformer: Towards Mechanism-Oriented AI for Cellular Understanding
- arxiv url: http://arxiv.org/abs/2601.01089v1
- Date: Sat, 03 Jan 2026 06:29:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.022772
- Title: Central Dogma Transformer: Towards Mechanism-Oriented AI for Cellular Understanding
- Title(参考訳): Central Dogma Transformer: 細胞理解のためのメカニズム指向AIを目指して
- Authors: Nobuyuki Ota,
- Abstract要約: 本稿では,DNA,RNA,タンパク質の事前学習言語モデルを統合するアーキテクチャであるCentral Dogma Transformer(CDT)を紹介する。
我々は, K562細胞のCRISPRiエンハンサー摂動データに対するCDT v1の有効性を検証し, Pearson相関を0.503。
これらの結果から,生物情報の流れに沿ったAIアーキテクチャは,予測精度と機械的解釈可能性の両方を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding cellular mechanisms requires integrating information across DNA, RNA, and protein - the three molecular systems linked by the Central Dogma of molecular biology. While domain-specific foundation models have achieved success for each modality individually, they remain isolated, limiting our ability to model integrated cellular processes. Here we present the Central Dogma Transformer (CDT), an architecture that integrates pre-trained language models for DNA, RNA, and protein following the directional logic of the Central Dogma. CDT employs directional cross-attention mechanisms - DNA-to-RNA attention models transcriptional regulation, while RNA-to-Protein attention models translational relationships - producing a unified Virtual Cell Embedding that integrates all three modalities. We validate CDT v1 - a proof-of-concept implementation using fixed (non-cell-specific) RNA and protein embeddings - on CRISPRi enhancer perturbation data from K562 cells, achieving a Pearson correlation of 0.503, representing 63% of the theoretical ceiling set by cross-experiment variability (r = 0.797). Attention and gradient analyses provide complementary interpretive windows: in detailed case studies, these approaches highlight largely distinct genomic regions, with gradient analysis identifying a CTCF binding site that Hi-C data showed as physically contacting both enhancer and target gene. These results suggest that AI architectures aligned with biological information flow can achieve both predictive accuracy and mechanistic interpretability.
- Abstract(参考訳): 細胞機構を理解するには、DNA、RNA、タンパク質の情報を統合する必要がある。
ドメイン固有の基礎モデルは、個々のモダリティに対して個別に成功しているが、それらは分離され続けており、統合された細胞プロセスのモデル化能力が制限されている。
ここでは、Central Dogma Transformer(CDT)について述べる。Central Dogmaは、Central Dogmaの方向性論理に従って、DNA、RNA、タンパク質の事前学習言語モデルを統合するアーキテクチャである。
CDTは転写調節のDNA-to-RNAアテンションモデル、翻訳関係のRNA-to-Proteinアテンションモデル、そして3つのモダリティを全て統合した仮想細胞埋め込みを生成する。
我々は、K562細胞からのCRISPRiエンハンサー摂動データに基づいて、CDT v1(固定された(非細胞特異的な)RNAとタンパク質の埋め込みを用いた概念実証実装)を検証し、Pearson相関を0.503で達成し、クロス実験変数によって設定された理論天井の63%(r = 0.797)を表現した。
詳細なケーススタディでは、これらのアプローチは、主に異なるゲノム領域を強調し、勾配解析は、Hi-Cデータがエンハンサーとターゲット遺伝子の両方に物理的に接触していることを示すCTCF結合部位を同定する。
これらの結果から,生物情報の流れに沿ったAIアーキテクチャは,予測精度と機械的解釈可能性の両方を達成できることが示唆された。
関連論文リスト
- TRIDENT: A Trimodal Cascade Generative Framework for Drug and RNA-Conditioned Cellular Morphology Synthesis [56.9460577864211]
TRIDENTは、摂動と対応する遺伝子発現プロファイルの両方を条件にすることで、現実的な細胞形態を合成するカスケード生成フレームワークである。
TRIDENTは最先端のアプローチよりも優れており、目に見えない化合物への強い一般化で最大7倍の改善を実現している。
論文 参考訳(メタデータ) (2025-11-23T04:43:27Z) - Learning Explicit Single-Cell Dynamics Using ODE Representations [33.16920280365721]
Cell-Mechanistic Neural Networks (Cell-MNN) はエンコーダ・デコーダアーキテクチャであり、その潜在表現は、幹細胞から組織細胞への細胞進化のダイナミクスを管理する局所線形化ODEである。
我々は,Cell-MNNが単一セルベンチマーク上での競合性能,大規模データセットへのスケーリングにおける最先端のベースライン,複数データセット間の共同トレーニング,さらにはTRRUSTデータベースに対して検証した解釈可能な遺伝子相互作用の学習などを実現していることを示す。
論文 参考訳(メタデータ) (2025-10-03T11:15:16Z) - Enhanced Single-Cell RNA-seq Embedding through Gene Expression and Data-Driven Gene-Gene Interaction Integration [0.05156484100374057]
本稿では、遺伝子発現プロファイルとデータ駆動型遺伝子-遺伝子相互作用を統合した新しい埋め込み手法を提案する。
遺伝子発現レベルと遺伝子-遺伝子相互作用の両方を組み込むことで、我々のアプローチは細胞状態のより包括的な表現を提供する。
論文 参考訳(メタデータ) (2025-09-01T21:19:27Z) - Clustering with Communication: A Variational Framework for Single Cell Representation Learning [2.275097126764287]
CCC信号を単一セル表現学習に組み込んだ変分自動符号化フレームワークCCCVAEを提案する。
CCCVAEはクラスタリング性能を向上し,標準的なVAEベースラインよりも高い評価スコアが得られることを示す。
論文 参考訳(メタデータ) (2025-05-08T01:53:36Z) - Interpretable Graph Kolmogorov-Arnold Networks for Multi-Cancer Classification and Biomarker Identification using Multi-Omics Data [36.92842246372894]
Multi-Omics Graph Kolmogorov-Arnold Network (MOGKAN)は、メッセンジャーRNA、マイクロRNA配列、DNAメチル化サンプルを利用するディープラーニングフレームワークである。
グラフに基づく深層学習とマルチオミクスデータを統合することにより,提案手法は頑健な予測性能と解釈可能性を示す。
論文 参考訳(メタデータ) (2025-03-29T02:14:05Z) - UniGenX: a unified generative foundation model that couples sequence, structure and function to accelerate scientific design across proteins, molecules and materials [62.72989417755985]
自然系における関数の統一生成モデルUniGenXを提案する。
UniGenXはシンボルトークンと数値トークンの混合ストリームとして異種入力を表す。
ドメイン間のファンクション・アウェア・ジェネレーションに対して、最先端または競合的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-09T16:43:07Z) - Life-Code: Central Dogma Modeling with Multi-Omics Sequence Unification [55.98854157265578]
Life-Codeは、様々な生物学的機能にまたがる包括的なフレームワークである。
本稿では、RNAを逆転写し、アミノ酸をヌクレオチド配列に変換することで、マルチオミクスデータを統合する統一パイプラインを提案する。
Life-Codeは3つのオミクスにまたがる様々なタスクの最先端の結果を達成し、マルチオミクス分析と解釈の進歩の可能性を強調している。
論文 参考訳(メタデータ) (2025-02-11T06:53:59Z) - Multimodal Analysis of White Blood Cell Differentiation in Acute Myeloid Leukemia Patients using a β-Variational Autoencoder [38.13262557169157]
形態学的および転写学的データを探索・再構成する教師なし手法を提案する。
本手法は,カスタマイズされた損失関数を持つβ変分オートエンコーダ(ss-VAE)に基づく。
バイオメディシンと診断のための白血球成熟の理解を改善するためのユニークなツールを提供する。
論文 参考訳(メタデータ) (2024-08-13T08:24:52Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。