論文の概要: Reinforcement learning on structure-conditioned categorical diffusion for protein inverse folding
- arxiv url: http://arxiv.org/abs/2410.17173v1
- Date: Tue, 22 Oct 2024 16:50:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:25:15.776547
- Title: Reinforcement learning on structure-conditioned categorical diffusion for protein inverse folding
- Title(参考訳): タンパク質逆フォールディングのための構造条件付きカテゴリー拡散の強化学習
- Authors: Yasha Ektefaie, Olivia Viessmann, Siddharth Narayanan, Drew Dresser, J. Mark Kim, Armen Mkrtchyan,
- Abstract要約: 逆折り畳みは、複数の列が同じ構造に折り畳むことができる1対多の問題である。
RL-DIFは、逆折り畳みのカテゴリー的拡散モデルであり、シーケンス回復に基づいて事前訓練され、強化学習によって調整される。
実験の結果、RL-DIFはCATH 4.2で29%の折りたたみ可能な多様性を達成できることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Protein inverse folding-that is, predicting an amino acid sequence that will fold into the desired 3D structure-is an important problem for structure-based protein design. Machine learning based methods for inverse folding typically use recovery of the original sequence as the optimization objective. However, inverse folding is a one-to-many problem where several sequences can fold to the same structure. Moreover, for many practical applications, it is often desirable to have multiple, diverse sequences that fold into the target structure since it allows for more candidate sequences for downstream optimizations. Here, we demonstrate that although recent inverse folding methods show increased sequence recovery, their "foldable diversity"-i.e. their ability to generate multiple non-similar sequences that fold into the structures consistent with the target-does not increase. To address this, we present RL-DIF, a categorical diffusion model for inverse folding that is pre-trained on sequence recovery and tuned via reinforcement learning on structural consistency. We find that RL-DIF achieves comparable sequence recovery and structural consistency to benchmark models but shows greater foldable diversity: experiments show RL-DIF can achieve an foldable diversity of 29% on CATH 4.2, compared to 23% from models trained on the same dataset. The PyTorch model weights and sampling code are available on GitHub.
- Abstract(参考訳): つまり、所望の3D構造に折り畳むアミノ酸配列を予測することは、構造に基づくタンパク質設計において重要な問題である。
逆フォールディングのための機械学習に基づく手法は、通常、最適化の目的として元のシーケンスのリカバリを使用する。
しかし、逆折り畳みは、複数の列が同じ構造に折り畳むことができる1対多の問題である。
さらに、多くの実用的なアプリケーションでは、下流最適化の候補シーケンスがより多く可能であるため、ターゲット構造に折り畳まれる複数の多様なシーケンスを持つことが望ましい。
ここでは,近年の逆折り畳み法は配列回復の増大を示すが,その「折り畳み可能な多様性」,すなわち,対象と整合する構造に折り畳む複数の非類似配列を生成する能力は増加しないことを示す。
そこで本研究では, 逆折り畳みモデルのRL-DIFについて述べる。
RL-DIFはベンチマークモデルと同等のシーケンス回復と構造的整合性を達成するが、より折りたたみ可能な多様性を示す。実験により、同じデータセットでトレーニングされたモデルから23%と比較して、CATH 4.2で29%の折りたたみ可能な多様性を達成できることが示された。
PyTorchモデルの重み付けとサンプリングコードはGitHubで公開されている。
関連論文リスト
- Bridge-IF: Learning Inverse Protein Folding with Markov Bridges [32.53142367116483]
逆タンパク質折り畳みは計算タンパク質設計の基本的な課題である。
逆折り畳みのための生成拡散ブリッジモデルであるBridge-IFを提案する。
以上の結果から,Bridge-IFは配列回復において既存のベースラインを超え,高い折りたたみ性を有する可塑性タンパク質の設計に優れることがわかった。
論文 参考訳(メタデータ) (2024-11-04T14:35:14Z) - Improving Inverse Folding for Peptide Design with Diversity-regularized Direct Preference Optimization [33.131551374836775]
逆折り畳みモデルは、望ましい参照構造に折り畳むアミノ酸配列を予測する。
メッセージパッシングエンコーダデコーダモデルであるProteinMPNNは、参照構造から新しいシーケンスを確実に生成するように訓練されている。
しかし、ペプチドに適用すると、これらのモデルは参照構造に折りたたみしない反復配列を生成する傾向がある。
論文 参考訳(メタデータ) (2024-10-25T11:04:02Z) - DPLM-2: A Multimodal Diffusion Protein Language Model [75.98083311705182]
DPLM-2は, 離散拡散タンパク質言語モデル(DPLM)を拡張し, 配列と構造の両方に適合する多モーダルタンパク質基盤モデルである。
DPLM-2は、配列と構造、およびその限界と条件の結合分布を学習する。
実験によりDPLM-2は高度に互換性のあるアミノ酸配列とそれに対応する3D構造を同時に生成できることが示された。
論文 参考訳(メタデータ) (2024-10-17T17:20:24Z) - Sequence-Augmented SE(3)-Flow Matching For Conditional Protein Backbone Generation [55.93511121486321]
タンパク質構造生成のための新しいシーケンス条件付きフローマッチングモデルFoldFlow-2を紹介する。
我々は、以前の作業のPDBデータセットよりも桁違いに大きい新しいデータセットでFoldFlow-2を大規模にトレーニングします。
我々はFoldFlow-2が従来のタンパク質構造に基づく生成モデルよりも優れていることを実証的に観察した。
論文 参考訳(メタデータ) (2024-05-30T17:53:50Z) - Protein Design with Guided Discrete Diffusion [67.06148688398677]
タンパク質設計における一般的なアプローチは、生成モデルと条件付きサンプリングのための識別モデルを組み合わせることである。
離散拡散モデルのためのガイダンス手法であるdiffusioN Optimized Smpling (NOS)を提案する。
NOSは、構造に基づく手法の重要な制限を回避し、シーケンス空間で直接設計を行うことができる。
論文 参考訳(メタデータ) (2023-05-31T16:31:24Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - AlphaFold Distillation for Protein Design [25.190210443632825]
逆タンパク質の折りたたみはバイオエンジニアリングと薬物発見に不可欠である。
AlphaFoldのような前方の折りたたみモデルは、シーケンスから構造を正確に予測することで潜在的な解決策を提供する。
本稿では, 折り畳みモデルの信頼性測定値に対する知識蒸留を用いて, より高速かつエンドツーエンドの識別可能な蒸留モデルを作成することを提案する。
論文 参考訳(メタデータ) (2022-10-05T19:43:06Z) - Diversifying Design of Nucleic Acid Aptamers Using Unsupervised Machine
Learning [54.247560894146105]
短い一本鎖RNAとDNA配列(アプタマー)の逆設計は、一連の望ましい基準を満たす配列を見つけるタスクである。
我々は、Pottsモデルとして知られる教師なし機械学習モデルを用いて、制御可能なシーケンスの多様性を持つ新しい有用なシーケンスを発見することを提案する。
論文 参考訳(メタデータ) (2022-08-10T13:30:58Z) - Benchmarking deep generative models for diverse antibody sequence design [18.515971640245997]
シーケンスのみから、あるいはシーケンスと構造を共同で学習する深層生成モデルは、このタスクにおいて印象的なパフォーマンスを示している。
最近提案されたタンパク質設計のための3つの深い生成フレームワークについて考察する: (AR) 配列ベースの自己回帰生成モデル、(GVP) 正確な構造ベースのグラフニューラルネットワーク、そして3次元折り畳みのファジィでスケールフリーな表現を利用するFold2Seq。
我々は,これらのモデルを,機能的含意に高い多様性を持つ設計配列を必要とする抗体配列の計算設計のタスクに基づいてベンチマークする。
論文 参考訳(メタデータ) (2021-11-12T16:23:32Z) - Fold2Seq: A Joint Sequence(1D)-Fold(3D) Embedding-based Generative Model
for Protein Design [70.27706384570723]
Fold2Seqは特定の標的に条件付きタンパク質配列を設計するための新しいフレームワークである。
Fold2Seqの性能は, シーケンス設計の速度, カバレッジ, 信頼性において向上したか, 同等であったかを示す。
フォールドベースのFold2Seqの独特な利点は、構造ベースのディープモデルやRosettaDesignと比較して、3つの現実世界の課題においてより明確になる。
論文 参考訳(メタデータ) (2021-06-24T14:34:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。