論文の概要: TriFit: Trimodal Fusion with Protein Dynamics for Mutation Fitness Prediction
- arxiv url: http://arxiv.org/abs/2604.12026v1
- Date: Mon, 13 Apr 2026 20:11:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.105849
- Title: TriFit: Trimodal Fusion with Protein Dynamics for Mutation Fitness Prediction
- Title(参考訳): TriFit:Trimodal Fusion with protein Dynamics for Mutation Fitness Prediction
- Authors: Seungik Cho,
- Abstract要約: TriFitは4つのMixture-of-Experts(MoE)融合モジュールを通じてシーケンス、構造、タンパク質のダイナミクスを統合する。
MoEルータは入力に条件付けられたモダリティの組み合わせを適応的に重み付けし、固定されたモダリティ仮定なしでタンパク質特異的な融合を可能にする。
ProteinGym の代替ベンチマークでは、TriFit は AUROC 0.897 +/- 0.0002 を達成し、全ての教師付きベースラインを上回っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting the functional impact of single amino acid substitutions (SAVs) is central to understanding genetic disease and engineering therapeutic proteins. While protein language models and structure-based methods have achieved strong performance on this task, they systematically neglect protein dynamics; residue flexibility, correlated motions, and allosteric coupling are well-established determinants of mutational tolerance in structural biology, yet have not been incorporated into supervised variant effect predictors. We present TriFit, a multimodal framework that integrates sequence, structure, and protein dynamics through a four-expert Mixture-of-Experts (MoE) fusion module with trimodal cross-modal contrastive learning. Sequence embeddings are extracted via masked marginal scoring with ESM-2 (650M); structural embeddings from AlphaFold2-predicted C-alpha geometries; and dynamics embeddings from Gaussian Network Model (GNM) B-factors, mode shapes, and residue-residue cross-correlations. The MoE router adaptively weights modality combinations conditioned on the input, enabling protein-specific fusion without fixed modality assumptions. On the ProteinGym substitution benchmark (217 DMS assays, 696k SAVs), TriFit achieves AUROC 0.897 +/- 0.0002, outperforming all supervised baselines including Kermut (0.864) and ProteinNPT (0.844), and the best zero-shot model ESM3 (0.769). Ablation studies confirm that dynamics provides the largest marginal contribution over pairwise modality combinations, and TriFit achieves well-calibrated probabilistic outputs (ECE = 0.044) without post-hoc correction.
- Abstract(参考訳): 単一アミノ酸置換(SAV)の機能的影響を予測することは、遺伝疾患と工学的治療タンパク質を理解することの中心である。
タンパク質言語モデルと構造に基づく手法は、この課題において強いパフォーマンスを達成しているが、彼らは体系的にタンパク質力学を無視し、残基の柔軟性、相関運動、アロステリックカップリングは構造生物学における突然変異耐性の決定因子として確立されているが、制御された変異効果予測因子には組み込まれていない。
提案するTriFitは,Mixture-of-Experts(MoE)融合モジュールと3モーダルクロスモーダルコントラスト学習を組み合わせた,配列,構造,タンパク質のダイナミクスを統合するマルチモーダルフレームワークである。
ESM-2 (650M), AlphaFold2予測C-アルファジオメトリの構造埋め込み, ガウスネットワークモデル(GNM) B-ファクタ, モード形状, 残留残差相互相関による動的埋め込みにより, 逐次埋め込みを抽出した。
MoEルータは入力に条件付けられたモダリティの組み合わせを適応的に重み付けし、固定されたモダリティ仮定なしでタンパク質特異的な融合を可能にする。
ProteinGymの代替ベンチマーク(217 DMSアッセイ、696k SAVs)では、TriFitはAUROC 0.897 +/- 0.0002を達成し、Kermut (0.864) やProteinNPT (0.844) を含む全ての教師付きベースラインと最高のゼロショットモデルESM3 (0.769) を上回った。
アブレーション研究は、ダイナミクスがペアワイドなモダリティの組み合わせに対して最大の限界寄与をもたらすことを確認し、TriFitはポストホック補正なしでよく校正された確率出力(ECE = 0.044)を達成する。
関連論文リスト
- Classifying Metamorphic versus Single-Fold Proteins with Statistical Learning and AlphaFold2 [1.5905165019585945]
複数の異なるコンフォメーションを採用できるメタモルフィックタンパク質は、AlphaFold2によって適切にモデル化できないコンフォメーション多様性を有する。
コンフォメーションアンサンブルを生成するためにAlphaFold2を再購入することで,新しい分類フレームワークを開発する。
既知の変成タンパク質と1つの折りたたみタンパク質のベンチマークデータセットに基づいて訓練されたランダム森林分類器は、クロスバリデーションで0.869の平均AUCを達成する。
論文 参考訳(メタデータ) (2025-12-10T20:37:21Z) - CONFIDE: Hallucination Assessment for Reliable Biomolecular Structure Prediction and Design [46.12506067241116]
本稿では,位相的フラストレーションを定量化する自己評価尺度であるCODE(Chain of Diffusion Embeddings)を提案する。
エネルギー的およびトポロジ的視点を組み合わせた統合評価フレームワークであるCONFIDEを提案する。
データ駆動の埋め込みと理論的な洞察を組み合わせることで、CODEとConFIDEは、幅広い生体分子システムで既存の指標より優れています。
論文 参考訳(メタデータ) (2025-11-20T03:38:46Z) - InstructPLM-mu: 1-Hour Fine-Tuning of ESM2 Beats ESM3 in Protein Mutation Predictions [54.19843038028329]
InstructPLM-muと呼ばれる微調整フレームワークを提案する。
構造入力を持つ細調整ESM2はESM3に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2025-10-03T07:42:22Z) - Learning residue level protein dynamics with multiscale Gaussians [14.292215300786715]
DynaProtは、静的構造から直接タンパク質ダイナミクスのリッチな記述子を予測する軽量フレームワークである。
本研究は,タンパク質動態予測を既存手法のスケーラブルな代替手段として活用する可能性を強調した。
論文 参考訳(メタデータ) (2025-09-01T00:38:44Z) - Multi-state Protein Design with DynamicMPNN [2.8456027933151993]
既存の多状態設計アプローチは、単状態予測のポストホックアグリゲーションに依存している。
動的MPNNは,複数のコンフォメーションと互換性のあるシーケンスを生成するために,明示的に訓練された逆モデルである。
論文 参考訳(メタデータ) (2025-07-29T15:51:26Z) - SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - Protein Conformation Generation via Force-Guided SE(3) Diffusion Models [48.48934625235448]
新しいタンパク質コンホメーションを生成するために、深層生成モデリング技術が用いられている。
本稿では,タンパク質コンフォメーション生成のための力誘導SE(3)拡散モデルConfDiffを提案する。
論文 参考訳(メタデータ) (2024-03-21T02:44:08Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。