論文の概要: Central Dogma Transformer III: Interpretable AI Across DNA, RNA, and Protein
- arxiv url: http://arxiv.org/abs/2603.23361v2
- Date: Thu, 26 Mar 2026 16:53:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 18:28:14.973919
- Title: Central Dogma Transformer III: Interpretable AI Across DNA, RNA, and Protein
- Title(参考訳): Central Dogma Transformer III: Interpretable AI across DNA, RNA, and protein
- Authors: Nobuyuki Ota,
- Abstract要約: 本報告では,DNA,RNA,タンパク質の全中心ドグマに対して,機構指向のAIを拡張するCDT-IIIを提案する。
2段階のVirtual Cell Embedderアーキテクチャは、細胞の空間的区画化を反映している。
Alemtuzumabを近似したシリコCD52のノックダウンに応用すると、このモデルは29/29タンパク質の正確な変化を予測する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biological AI models increasingly predict complex cellular responses, yet their learned representations remain disconnected from the molecular processes they aim to capture. We present CDT-III, which extends mechanism-oriented AI across the full central dogma: DNA, RNA, and protein. Its two-stage Virtual Cell Embedder architecture mirrors the spatial compartmentalization of the cell: VCE-N models transcription in the nucleus and VCE-C models translation in the cytosol. On five held-out genes, CDT-III achieves per-gene RNA r=0.843 and protein r=0.969. Adding protein prediction improves RNA performance (r=0.804 to 0.843), demonstrating that downstream tasks regularize upstream representations. Protein supervision sharpens DNA-level interpretability, increasing CTCF enrichment by 30%. Analysis of experimentally measured mRNA and protein responses reveals that the majority of genes with observable mRNA changes show opposite protein-level changes (66.7% at |log2FC|>0.01, rising to 87.5% at |log2FC|>0.02), exposing a fundamental limitation of RNA-only perturbation models. Despite this pervasive direction discordance, CDT-III correctly predicts both mRNA and protein responses. Applied to in silico CD52 knockdown approximating Alemtuzumab, the model predicts 29/29 protein changes correctly and rediscovers 5 of 7 known clinical side effects without clinical data. Gradient-based side effect profiling requires only unperturbed baseline data (r=0.939), enabling screening of all 2,361 genes without new experiments.
- Abstract(参考訳): 生物学的AIモデルは、複雑な細胞応答を予測する傾向にあるが、彼らの学習された表現は、彼らが捉える分子過程から切り離されているままである。
本報告では,DNA,RNA,タンパク質の全中心ドグマに対して,機構指向のAIを拡張するCDT-IIIを提案する。
2段階のVirtual Cell Embedderアーキテクチャは、細胞の空間的区画化を反映している:VCE-Nは核で転写され、VCE-Cは細胞質で翻訳される。
5つの保留遺伝子において、CDT-IIIは遺伝子当たりのRNA r=0.843とタンパク質 r=0.969を達成する。
タンパク質の予測を追加することでRNA性能(r=0.804から0.843)が向上し、下流タスクが上流表現を規則化することを示した。
タンパク質の監督はDNAレベルの解釈可能性を高め、CTCFの濃縮を30%増加させる。
実験的に測定されたmRNAとタンパク質の反応の解析により、観測可能なmRNA変化を持つ遺伝子の大多数は反対のタンパク質レベルの変化を示し(log2FC|>0.01で66.7%、|log2FC|>0.02で87.5%まで上昇し、RNAのみの摂動モデルの基本的制限を明らかにしている。
この広がり方向の不一致にもかかわらず、CDT-IIIはmRNAとタンパク質の両方の反応を正確に予測する。
Alemtuzumabを近似したシリコCD52のノックダウンに応用すると、このモデルは29/29タンパク質の変化を正しく予測し、臨床データのない7つの既知の臨床副作用のリコバー5を再現する。
勾配に基づくサイドエフェクトプロファイリングは、新しい実験なしで2,361遺伝子のスクリーニングを可能にする、未成熟のベースラインデータ(r=0.939)のみを必要とする。
関連論文リスト
- Central Dogma Transformer II: An AI Microscope for Understanding Cellular Regulatory Mechanisms [0.0]
注意図を直接規制構造として解釈できる「AI顕微鏡」CDT-IIを提案する。
CDT-IIは、その構造において中心のドグマを反映することにより、それぞれの注意機構が特定の生物学的関係に対応することを保証している。
K562 CRISPRiデータの適用により、CDT-IIは摂動効果を予測し、監督なしでGFI1B規制ネットワークを回復する。
論文 参考訳(メタデータ) (2026-02-09T14:54:31Z) - Central Dogma Transformer: Towards Mechanism-Oriented AI for Cellular Understanding [0.0]
本稿では,DNA,RNA,タンパク質の事前学習言語モデルを統合するアーキテクチャであるCentral Dogma Transformer(CDT)を紹介する。
我々は, K562細胞のCRISPRiエンハンサー摂動データに対するCDT v1の有効性を検証し, Pearson相関を0.503。
これらの結果から,生物情報の流れに沿ったAIアーキテクチャは,予測精度と機械的解釈可能性の両方を達成できることが示唆された。
論文 参考訳(メタデータ) (2026-01-03T06:29:22Z) - TRIDENT: A Trimodal Cascade Generative Framework for Drug and RNA-Conditioned Cellular Morphology Synthesis [56.9460577864211]
TRIDENTは、摂動と対応する遺伝子発現プロファイルの両方を条件にすることで、現実的な細胞形態を合成するカスケード生成フレームワークである。
TRIDENTは最先端のアプローチよりも優れており、目に見えない化合物への強い一般化で最大7倍の改善を実現している。
論文 参考訳(メタデータ) (2025-11-23T04:43:27Z) - DNABERT-2: Fine-Tuning a Genomic Language Model for Colorectal Gene Enhancer Classification [0.0]
DNABERT-2は、DNAから可変長トークンを学習するためにバイトペアエンコーディングを使用するトランスフォーマーゲノム言語モデルである。
遺伝子エンハンサーは、いつ、どこで遺伝子がスイッチされるかを制御するが、その配列の多様性と組織特異性は、大腸癌の特定を困難にしている。
大腸癌におけるBPEトークン化を用いた第2世代のゲノム言語モデルを適用した最初の研究である。
論文 参考訳(メタデータ) (2025-09-28T16:10:03Z) - ProteinZero: Self-Improving Protein Generation via Online Reinforcement Learning [49.2607661375311]
本稿では,逆折り畳みモデルの計算的拡張性,自動化,継続的な自己改善を可能にする新しいフレームワークであるProteinZeroを提案する。
ProteinZeroは、タンパク質設計のすべての主要な指標において、既存の手法を大幅に上回っている。
特に、CATH-4.3上で実行されるRL全体は、報酬を含む3日以内に1つの8X GPUノードで実行できる。
論文 参考訳(メタデータ) (2025-06-09T06:08:59Z) - scHyena: Foundation Model for Full-Length Single-Cell RNA-Seq Analysis
in Brain [46.39828178736219]
我々はこれらの課題に対処し、脳内のscRNA-seq解析の精度を高めるために設計された基礎モデルであるscHyenaを紹介する。
scHyenaは、線形適応層、遺伝子埋め込みによる位置エンコーディング、および双方向ハイエナ演算子を備えている。
これにより、生データから情報を失うことなく、全長の scRNA-seq データを処理できる。
論文 参考訳(メタデータ) (2023-10-04T10:30:08Z) - hist2RNA: An efficient deep learning architecture to predict gene
expression from breast cancer histopathology images [11.822321981275232]
深層学習アルゴリズムは、デジタル病理画像中の形態パターンを効果的に抽出し、分子の表現型を迅速かつ低コストで予測することができる。
我々は,138遺伝子の発現を予測するために,バルクRNAシークエンシング技術にインスパイアされたhist2RNAという新しい計算効率の高い手法を提案する。
論文 参考訳(メタデータ) (2023-04-10T10:54:32Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。