論文の概要: RadDiff: Retrieval-Augmented Denoising Diffusion for Protein Inverse Folding
- arxiv url: http://arxiv.org/abs/2512.00126v1
- Date: Fri, 28 Nov 2025 07:32:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.081142
- Title: RadDiff: Retrieval-Augmented Denoising Diffusion for Protein Inverse Folding
- Title(参考訳): RadDiff: タンパク質逆フォールディングのための検索拡張デノイング拡散
- Authors: Jin Han, Tianfan Fu, Wu-Jun Li,
- Abstract要約: タンパク質逆折り畳みは計算タンパク質工学の基本的な問題である。
既存の方法は、外部の知識を活用せずにシーケンスを生成するか、タンパク質言語モデルに依存するかのいずれかである。
本稿では,タンパク質逆フォールディングのための検索拡張デノナイジング拡散(RadDiff)を提案する。
- 参考スコア(独自算出の注目度): 32.214133513502205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protein inverse folding, the design of an amino acid sequence based on a target 3D structure, is a fundamental problem of computational protein engineering. Existing methods either generate sequences without leveraging external knowledge or relying on protein language models (PLMs). The former omits the evolutionary information stored in protein databases, while the latter is parameter-inefficient and inflexible to adapt to ever-growing protein data. To overcome the above drawbacks, in this paper we propose a novel method, called retrieval-augmented denoising diffusion (RadDiff), for protein inverse folding. Given the target protein backbone, RadDiff uses a hierarchical search strategy to efficiently retrieve structurally similar proteins from large protein databases. The retrieved structures are then aligned residue-by-residue to the target to construct a position-specific amino acid profile, which serves as an evolutionary-informed prior that conditions the denoising process. A lightweight integration module is further designed to incorporate this prior effectively. Experimental results on the CATH, PDB, and TS50 datasets show that RadDiff consistently outperforms existing methods, improving sequence recovery rate by up to 19%. Experimental results also demonstrate that RadDiff generates highly foldable sequences and scales effectively with database size.
- Abstract(参考訳): タンパク質逆折り畳みは、標的3次元構造に基づくアミノ酸配列の設計であり、計算タンパク質工学の根本的な問題である。
既存の方法は、外部知識を活用せずにシーケンスを生成するか、タンパク質言語モデル(PLM)に依存している。
前者はタンパク質データベースに格納されている進化情報を省略するが、後者はパラメータ非効率で、成長を続けるタンパク質データに適応できない。
以上の欠点を克服するために,タンパク質逆フォールディングのための検索拡張復調拡散法(RadDiff)を提案する。
ターゲットとなるタンパク質のバックボーンを考えると、RadDiffは階層的な探索戦略を用いて、大きなタンパク質データベースから構造的に類似したタンパク質を効率的に回収する。
得られた構造体はターゲットに残基を並べて位置特異的なアミノ酸プロファイルを構築する。
より軽量な統合モジュールは、これをより効果的に組み込むように設計されている。
CATH、PDB、TS50データセットの実験結果は、RadDiffが既存の手法を一貫して上回り、シーケンス回復率を最大19%改善していることを示している。
実験の結果、RadDiffは高い折り畳み可能なシーケンスを生成し、データベースサイズで効果的にスケールすることを示した。
関連論文リスト
- S$^2$Drug: Bridging Protein Sequence and 3D Structure in Contrastive Representation Learning for Virtual Screening [72.89086338778098]
タンパク質リガンドコントラスト表現学習のための2段階フレームワークを提案する。
最初の段階では、ESM2ベースのバックボーンを用いて、ChemBLでタンパク質配列を事前訓練する。
第2段階では、残基レベルゲーティングモジュールを介して配列と構造情報を融合することでPDBBindを微調整する。
この補助的なタスクは、モデルを誘導し、タンパク質配列内の結合残基を正確に局在させ、それらの3次元空間配列をキャプチャする。
論文 参考訳(メタデータ) (2025-11-10T11:57:47Z) - ProteinAE: Protein Diffusion Autoencoders for Structure Encoding [64.77182442408254]
本稿では,新規かつ合理化されたタンパク質拡散オートエンコーダであるProteinAEを紹介する。
プロテインAEは、タンパク質のバックボーン座標を直接E(3)から連続的でコンパクトな潜在空間にマッピングする。
本研究では,既存のオートエンコーダよりも優れた,最先端の再構築品質を実現することを実証する。
論文 参考訳(メタデータ) (2025-10-12T14:30:32Z) - Protein Inverse Folding From Structure Feedback [78.27854221882572]
本稿では,タンパク質の折りたたみモデルからのフィードバックを用いて,逆折りたたみモデルを微調整する手法を提案する。
CATH 4.2 テストセットの結果,DPO の微調整により平均 TM-Score が大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-06-03T16:02:12Z) - Mask prior-guided denoising diffusion improves inverse protein folding [3.1373465343833704]
逆タンパク質の折り畳みは、所望のタンパク質構造に折り畳むことのできる有効なアミノ酸配列を生成する。
このような低信頼残差予測に対処するために,Mask-prior-guided denoising Diffusion frameworkを提案する。
MapDiffは、ノイズを低減したアミノ酸配列を反復的に生成する離散拡散確率モデルである。
論文 参考訳(メタデータ) (2024-12-10T09:10:28Z) - SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - A PLMs based protein retrieval framework [3.878994100846403]
本稿では,配列類似性に対するバイアスを緩和する新規なタンパク質検索フレームワークを提案する。
我々のフレームワークは、タンパク質の配列を高次元の特徴空間に埋め込むために、タンパク質言語モデル(PLM)を主導的に活用する。
大規模な実験により、我々のフレームワークは類似タンパク質と異種タンパク質の両方を等しく回収できることが示された。
論文 参考訳(メタデータ) (2024-07-16T09:52:42Z) - Predicting mutational effects on protein-protein binding via a
side-chain diffusion probabilistic model [14.949807579474781]
SidechainDiffは、未ラベルな実験タンパク質構造を利用する表現学習に基づくアプローチである。
SidechainDiffは、側鎖の拡散に基づく最初の生成モデルであり、タンパク質のバックボーン構造の生成に主に焦点をあてた以前の試みと区別している。
論文 参考訳(メタデータ) (2023-10-30T15:23:42Z) - AbDiffuser: Full-Atom Generation of in vitro Functioning Antibodies [44.149969082612486]
AbDiffuserは、抗体3D構造と配列の同変および物理インフォームド拡散モデルである。
我々のアプローチは、ドメイン知識と物理に基づく制約を生かして、タンパク質の拡散を改善する。
数値実験では、AbDiffuserが参照集合の配列と構造を綿密に追跡する抗体を生成する能力を示している。
論文 参考訳(メタデータ) (2023-07-28T11:57:44Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。