論文の概要: PRISM: Enhancing Protein Inverse Folding through Fine-Grained Retrieval on Structure-Sequence Multimodal Representations
- arxiv url: http://arxiv.org/abs/2510.11750v1
- Date: Sun, 12 Oct 2025 00:45:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.028232
- Title: PRISM: Enhancing Protein Inverse Folding through Fine-Grained Retrieval on Structure-Sequence Multimodal Representations
- Title(参考訳): PRISM: 構造系列マルチモーダル表現における微細粒度検索によるタンパク質逆フォールディングの促進
- Authors: Sazan Mahbub, Souvik Kundu, Eric P. Xing,
- Abstract要約: 逆フォールディングのための多モーダル検索拡張生成フレームワークであるPRISMを提案する。
既知のタンパク質から潜在的なモチーフの微細な表現を回収し、それらをハイブリッドなセルフクロスアテンションデコーダと統合する。
PRISMは、パープレキシティとアミノ酸の回収の両方において新しい技術状態を確立し、フォールドビリティの指標も改善した。
- 参考スコア(独自算出の注目度): 42.870409939729974
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Designing protein sequences that fold into a target three-dimensional structure, known as the inverse folding problem, is central to protein engineering but remains challenging due to the vast sequence space and the importance of local structural constraints. Existing deep learning approaches achieve strong recovery rates, yet they lack explicit mechanisms to reuse fine-grained structure-sequence patterns that are conserved across natural proteins. We present PRISM, a multimodal retrieval-augmented generation framework for inverse folding that retrieves fine-grained representations of potential motifs from known proteins and integrates them with a hybrid self-cross attention decoder. PRISM is formulated as a latent-variable probabilistic model and implemented with an efficient approximation, combining theoretical grounding with practical scalability. Across five benchmarks (CATH-4.2, TS50, TS500, CAMEO 2022, and the PDB date split), PRISM establishes new state of the art in both perplexity and amino acid recovery, while also improving foldability metrics (RMSD, TM-score, pLDDT), demonstrating that fine-grained multimodal retrieval is a powerful and efficient paradigm for protein sequence design.
- Abstract(参考訳): 逆折り畳み問題として知られる標的の3次元構造に折り畳まれるタンパク質配列を設計することは、タンパク質工学の中心であるが、膨大な配列空間と局所的な構造的制約の重要性のため、依然として困難である。
既存のディープラーニングアプローチは強い回復率を達成するが、天然タンパク質にまたがって保存される微細な構造配列パターンを再利用する明確なメカニズムは欠如している。
PRISMは逆フォールディングのための多モーダル検索拡張生成フレームワークで、既知のタンパク質から潜在的なモチーフの微細な表現を抽出し、それらをハイブリッドな自己クロスアテンションデコーダと統合する。
PRISMは潜在変数確率モデルとして定式化され、理論基底と実用的な拡張性を組み合わせた効率的な近似で実装される。
5つのベンチマーク(CATH-4.2, TS50, TS500, CAMEO 2022, PDB日分割)を通じて、PRISMは、タンパク質配列設計において、微細なマルチモーダル検索が強力で効率的なパラダイムであることを証明し、折りたたみ性メトリクス(RMSD, TMスコア, pLDDT)を改善した。
関連論文リスト
- ProteinAE: Protein Diffusion Autoencoders for Structure Encoding [64.77182442408254]
本稿では,新規かつ合理化されたタンパク質拡散オートエンコーダであるProteinAEを紹介する。
プロテインAEは、タンパク質のバックボーン座標を直接E(3)から連続的でコンパクトな潜在空間にマッピングする。
本研究では,既存のオートエンコーダよりも優れた,最先端の再構築品質を実現することを実証する。
論文 参考訳(メタデータ) (2025-10-12T14:30:32Z) - Lattice Protein Folding with Variational Annealing [2.164205569823082]
本稿では,2次元疎水性多孔体(HP)格子タンパク質の折りたたみにおける低エネルギー折りたたみの同定にマスキングを用いた新しいトレーニング手法を提案する。
本研究は,複雑なタンパク質の折り畳み問題に対処するための高度な機械学習技術の可能性を強調した。
論文 参考訳(メタデータ) (2025-02-28T01:30:15Z) - Fast and Accurate Antibody Sequence Design via Structure Retrieval [32.38989928131971]
Igseekは、天然の抗体データベースから類似した構造によって配列を推論する新しい構造検索フレームワークである。
実験の結果,Igseekは構造検索において高い効率性を示すだけでなく,抗体およびT細胞受容体の配列回復における最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-02-11T13:29:49Z) - DPLM-2: A Multimodal Diffusion Protein Language Model [75.98083311705182]
DPLM-2は, 離散拡散タンパク質言語モデル(DPLM)を拡張し, 配列と構造の両方に適合する多モーダルタンパク質基盤モデルである。
DPLM-2は、配列と構造、およびその限界と条件の結合分布を学習する。
実験によりDPLM-2は高度に互換性のあるアミノ酸配列とそれに対応する3D構造を同時に生成できることが示された。
論文 参考訳(メタデータ) (2024-10-17T17:20:24Z) - Learning the Language of Protein Structure [8.364087723533537]
本稿では,タンパク質構造を離散表現に効果的にトークン化するベクトル量子化オートエンコーダを用いたアプローチを提案する。
学習した表現の有効性を示すために、コードブック上でトレーニングされた単純なGPTモデルにより、新規で多様性があり、設計可能なタンパク質構造を生成することができることを示す。
論文 参考訳(メタデータ) (2024-05-24T16:03:47Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。