論文の概要: ZeroFold: Protein-RNA Binding Affinity Predictions from Pre-Structural Embeddings
- arxiv url: http://arxiv.org/abs/2603.23583v1
- Date: Tue, 24 Mar 2026 15:14:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:10.95958
- Title: ZeroFold: Protein-RNA Binding Affinity Predictions from Pre-Structural Embeddings
- Title(参考訳): ZeroFold: 構造前埋め込みによるタンパク質-RNA結合親和性予測
- Authors: Josef Hanke, Sebastian Pujalte Ojeda, Shengyu Zhang, Werngard Czechtizky, Leonardo De Maria, Michele Vendruscolo,
- Abstract要約: タンパク質-RNA結合親和性の正確な予測は、構造生物学において未解決の問題である。
ここでは, 既設の埋設物を抽出することにより, この障害に対処できることを示す。
我々はZeroFoldというトランスフォーマーをベースとしたモデルを構築し、Boltz-2からタンパク質とRNA分子の両方に組み込む。
- 参考スコア(独自算出の注目度): 7.1857665261026575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The accurate prediction of protein-RNA binding affinity remains an unsolved problem in structural biology, limiting opportunities in understanding gene regulation and designing RNA-targeting therapeutics. A central obstacle is the structural flexibility of RNA, as, unlike proteins, RNA molecules exist as dynamic conformational ensembles. Thus, committing to a single predicted structure discards information relevant to binding. Here, we show that this obstacle can be addressed by extracting pre-structural embeddings, which are intermediate representations from a biomolecular foundation model captured before the structure decoding step. Pre-structural embeddings implicitly encode conformational ensemble information without requiring predicted structures. We build ZeroFold, a transformer-based model that combines pre-structural embeddings from Boltz-2 for both protein and RNA molecules through a cross-modal attention mechanism to predict binding affinity directly from sequence. To support training and evaluation, we construct PRADB, a curated dataset of 2,621 unique protein-RNA pairs with experimentally measured affinities drawn from four complementary databases. On a held-out test set constructed with 40% sequence identity thresholds, ZeroFold achieves a Spearman correlation of 0.65, a value approaching the ceiling imposed by experimental measurement noise. Under progressively fairer evaluation conditions that control for training-set overlap, ZeroFold compares favourably with respect to leading structure-based and leading sequence-based predictors, with the performance gap widening as sequence similarity to competitor training data is reduced. These results illustrate how pre-structural embeddings offer a representation strategy for flexible biomolecules, opening a route to affinity prediction for protein-RNA pairs for which no structural data exist.
- Abstract(参考訳): タンパク質-RNA結合親和性の正確な予測は、構造生物学において未解決の問題であり、遺伝子制御を理解し、RNA標的治療を設計する機会を制限している。
中心的な障害は、タンパク質とは異なり、RNA分子が動的コンフォメーションアンサンブルとして存在するように、RNAの構造的柔軟性である。
したがって、単一の予測構造へのコミットは、バインディングに関連する情報を破棄する。
本稿では, 生体分子基盤モデルから中間表現であるプレ構造埋め込みを抽出することにより, この障害に対処できることを示す。
事前構造埋め込みは、予測された構造を必要としない構造的アンサンブル情報を暗黙的にエンコードする。
我々は、ZeroFoldというトランスフォーマーベースのモデルを構築し、Boltz-2からタンパク質とRNA分子の両方へのプレ構造埋め込みを、配列から直接結合親和性を予測するために、クロスモーダルなアテンション機構を通じて組み合わせた。
トレーニングと評価を支援するために,4つの相補的データベースから抽出された親和性を実験的に測定した2,621個のタンパク質-RNA対のキュレートデータセットであるPRADBを構築した。
40%のシーケンスアイデンティティしきい値で構成されたホールトアウトテストセットでは、ZeroFoldは、実験的な測定ノイズによって課される天井に近づく値である0.65のスピアマン相関を達成する。
トレーニングセットの重複に対する制御を段階的に公平に評価する条件下では、ZeroFoldは、先行する構造ベースおよび先行するシーケンスベースの予測器と比較して好意的に比較し、競合するトレーニングデータとのシーケンス類似性により、パフォーマンスギャップが拡大する。
これらの結果は、構造前埋め込みが柔軟な生体分子の表現戦略を提供し、構造データが存在しないタンパク質-RNA対の親和性予測への道を開くことを示している。
関連論文リスト
- Investigating Knowledge Distillation Through Neural Networks for Protein Binding Affinity Prediction [0.22369578015657954]
予測精度とデータ可用性のトレードオフにより、タンパク質結合親和性を正確に予測することは困難である。
学習中にタンパク質構造データを使用し,推論時にのみシーケンスデータを必要とする知識蒸留に基づく回帰フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-07T08:43:08Z) - On fine-tuning Boltz-2 for protein-protein affinity prediction [1.7607577951969595]
我々は,タンパク質-リガンド親和性予測器であるボルツ-2をタンパク質-タンパク質親和性回帰に適用した。
構造精度が高いにもかかわらず、Boltz-2-PPIは、小規模データと大規模データレギュレーションの両方において、シーケンスベースの代替よりも性能が低い。
その結果、構造データによるトレーニングに伴う既知のバイアスを反映し、現在の構造に基づく表現は、性能的親和性予測には適さないことが示唆された。
論文 参考訳(メタデータ) (2025-12-06T23:07:10Z) - S$^2$Drug: Bridging Protein Sequence and 3D Structure in Contrastive Representation Learning for Virtual Screening [72.89086338778098]
タンパク質リガンドコントラスト表現学習のための2段階フレームワークを提案する。
最初の段階では、ESM2ベースのバックボーンを用いて、ChemBLでタンパク質配列を事前訓練する。
第2段階では、残基レベルゲーティングモジュールを介して配列と構造情報を融合することでPDBBindを微調整する。
この補助的なタスクは、モデルを誘導し、タンパク質配列内の結合残基を正確に局在させ、それらの3次元空間配列をキャプチャする。
論文 参考訳(メタデータ) (2025-11-10T11:57:47Z) - CoPRA: Bridging Cross-domain Pretrained Sequence Models with Complex Structures for Protein-RNA Binding Affinity Prediction [23.1499716310298]
我々は,タンパク質-RNA結合親和性データセットPRA310を構築し,性能評価を行った。
我々は,(1)タンパク質-RNA結合親和性,(2)変異による結合親和性の変化を正確に予測できること,(3)データのスケーリングとモデルサイズによるメリットを広く分析し,検証する。
論文 参考訳(メタデータ) (2024-08-21T09:48:22Z) - PSC-CPI: Multi-Scale Protein Sequence-Structure Contrasting for
Efficient and Generalizable Compound-Protein Interaction Prediction [63.50967073653953]
化合物-タンパク質相互作用予測は、合理的な薬物発見のための化合物-タンパク質相互作用のパターンと強度を予測することを目的としている。
既存のディープラーニングベースの手法では、タンパク質配列や構造が単一のモダリティしか利用していない。
CPI予測のためのマルチスケールタンパク質配列構造コントラストフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-13T03:51:10Z) - RDesign: Hierarchical Data-efficient Representation Learning for
Tertiary Structure-based RNA Design [65.41144149958208]
本研究では,データ駆動型RNA設計パイプラインを体系的に構築することを目的とする。
我々は、ベンチマークデータセットを作成し、複雑なRNA第三次構造を表現するための包括的な構造モデリングアプローチを設計した。
RNA設計プロセスを容易にするために,塩基対を持つ抽出二次構造体を事前知識として組み込んだ。
論文 参考訳(メタデータ) (2023-01-25T17:19:49Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - Accurate RNA 3D structure prediction using a language model-based deep learning approach [50.193512039121984]
RhoFold+はRNA言語モデルに基づくディープラーニング手法で、配列から単一鎖RNAの3次元構造を正確に予測する。
RhoFold+はRNA 3D構造予測のための完全に自動化されたエンドツーエンドパイプラインを提供する。
論文 参考訳(メタデータ) (2022-07-04T17:15:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。