論文の概要: AlphaFold Distillation for Protein Design
- arxiv url: http://arxiv.org/abs/2210.03488v2
- Date: Wed, 22 Nov 2023 22:52:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 05:10:10.085827
- Title: AlphaFold Distillation for Protein Design
- Title(参考訳): タンパク質設計のためのAlphaFold蒸留
- Authors: Igor Melnyk, Aurelie Lozano, Payel Das, Vijil Chenthamarakshan
- Abstract要約: 逆タンパク質の折りたたみはバイオエンジニアリングと薬物発見に不可欠である。
AlphaFoldのような前方の折りたたみモデルは、シーケンスから構造を正確に予測することで潜在的な解決策を提供する。
本稿では, 折り畳みモデルの信頼性測定値に対する知識蒸留を用いて, より高速かつエンドツーエンドの識別可能な蒸留モデルを作成することを提案する。
- 参考スコア(独自算出の注目度): 25.190210443632825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inverse protein folding, the process of designing sequences that fold into a
specific 3D structure, is crucial in bio-engineering and drug discovery.
Traditional methods rely on experimentally resolved structures, but these cover
only a small fraction of protein sequences. Forward folding models like
AlphaFold offer a potential solution by accurately predicting structures from
sequences. However, these models are too slow for integration into the
optimization loop of inverse folding models during training. To address this,
we propose using knowledge distillation on folding model confidence metrics,
such as pTM or pLDDT scores, to create a faster and end-to-end differentiable
distilled model. This model can then be used as a structure consistency
regularizer in training the inverse folding model. Our technique is versatile
and can be applied to other design tasks, such as sequence-based protein
infilling. Experimental results show that our method outperforms
non-regularized baselines, yielding up to 3% improvement in sequence recovery
and up to 45% improvement in protein diversity while maintaining structural
consistency in generated sequences. Code is available at
https://github.com/IBM/AFDistill
- Abstract(参考訳): 逆タンパク質の折り畳み(逆タンパク質折り畳み)は、特定の3次元構造に折り畳まれる配列を設計するプロセスであり、バイオエンジニアリングと薬物発見に不可欠である。
従来の手法は実験的に解決された構造に依存しているが、これらはわずかにタンパク質配列をカバーするだけである。
alphafoldのような前方折り畳みモデルは、シーケンスから構造を正確に予測することで潜在的な解決策を提供する。
しかし、これらのモデルはトレーニング中に逆折り畳みモデルの最適化ループに統合するには遅すぎる。
そこで本研究では,ptmやplddtスコアなど折り畳みモデルの信頼度指標に対する知識蒸留を用いて,より高速でエンドツーエンドの微分可能な蒸留モデルを作成することを提案する。
このモデルは、逆折り畳みモデルのトレーニングにおいて構造整合正則化器として使用できる。
我々の技術は汎用的で、配列ベースのタンパク質の注入など他の設計タスクにも適用できる。
実験結果から,本手法は非正規化ベースラインよりも優れた性能を示し,配列回復の最大3%,タンパク質多様性の最大45%,生成配列の構造的整合性を維持した。
コードはhttps://github.com/IBM/AFDistillで入手できる。
関連論文リスト
- Improving Inverse Folding for Peptide Design with Diversity-regularized Direct Preference Optimization [33.131551374836775]
逆折り畳みモデルは、望ましい参照構造に折り畳むアミノ酸配列を予測する。
メッセージパッシングエンコーダデコーダモデルであるProteinMPNNは、参照構造から新しいシーケンスを確実に生成するように訓練されている。
しかし、ペプチドに適用すると、これらのモデルは参照構造に折りたたみしない反復配列を生成する傾向がある。
論文 参考訳(メタデータ) (2024-10-25T11:04:02Z) - Structure Language Models for Protein Conformation Generation [66.42864253026053]
伝統的な物理学に基づくシミュレーション手法は、しばしばサンプリング平衡整合に苦しむ。
深い生成モデルは、より効率的な代替としてタンパク質のコンホメーションを生成することを約束している。
本稿では,効率的なタンパク質コンホメーション生成のための新しいフレームワークとして構造言語モデリングを紹介する。
論文 参考訳(メタデータ) (2024-10-24T03:38:51Z) - Reinforcement learning on structure-conditioned categorical diffusion for protein inverse folding [0.0]
逆折り畳みは、複数の列が同じ構造に折り畳むことができる1対多の問題である。
RL-DIFは、逆折り畳みのカテゴリー的拡散モデルであり、シーケンス回復に基づいて事前訓練され、強化学習によって調整される。
実験の結果、RL-DIFはCATH 4.2で29%の折りたたみ可能な多様性を達成できることが示された。
論文 参考訳(メタデータ) (2024-10-22T16:50:34Z) - AlphaFold Meets Flow Matching for Generating Protein Ensembles [11.1639408863378]
本研究では,タンパク質のコンフォメーション・ランドスケープを学習・サンプリングするためのフローベース生成モデリング手法を開発した。
提案手法はAlphaFoldとMSAサブサンプリングと比較して精度と多様性の組合せが優れている。
本手法は,MD軌道の再現よりも高速な壁面収束により,静的なPDB構造を多様化することができる。
論文 参考訳(メタデータ) (2024-02-07T13:44:47Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Predicting protein variants with equivariant graph neural networks [0.0]
我々は,同変グラフニューラルネットワーク(EGNN)と配列に基づくアプローチによる有望なアミノ酸変異の同定能力の比較を行った。
提案する構造的アプローチは, より少ない分子で訓練しながら, 配列に基づくアプローチと競合する性能を実現する。
論文 参考訳(メタデータ) (2023-06-21T12:44:52Z) - Protein Design with Guided Discrete Diffusion [67.06148688398677]
タンパク質設計における一般的なアプローチは、生成モデルと条件付きサンプリングのための識別モデルを組み合わせることである。
離散拡散モデルのためのガイダンス手法であるdiffusioN Optimized Smpling (NOS)を提案する。
NOSは、構造に基づく手法の重要な制限を回避し、シーケンス空間で直接設計を行うことができる。
論文 参考訳(メタデータ) (2023-05-31T16:31:24Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - Unsupervisedly Prompting AlphaFold2 for Few-Shot Learning of Accurate
Folding Landscape and Protein Structure Prediction [28.630603355510324]
そこで我々は,メタ生成モデルであるEvoGenを提案し,貧弱なMSAターゲットに対するAlphaFold2のアンダーパフォーマンスを改善する。
EvoGenは、キャリブレーションまたは実質的に生成されたホモログシーケンスでモデルにプロンプトすることで、AlphaFold2を低データで正確に折り畳むのに役立つ。
論文 参考訳(メタデータ) (2022-08-20T10:23:17Z) - HelixFold-Single: MSA-free Protein Structure Prediction by Using Protein
Language Model as an Alternative [61.984700682903096]
HelixFold-Singleは、大規模なタンパク質言語モデルとAlphaFold2の優れた幾何学的学習能力を組み合わせるために提案されている。
提案手法は,数千万の一次配列を持つ大規模タンパク質言語モデルを事前学習する。
我々は、一次系列のみから原子の3次元座標を予測するために、エンドツーエンドの微分可能なモデルを得る。
論文 参考訳(メタデータ) (2022-07-28T07:30:33Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。