論文の概要: AlphaFold Distillation for Improved Inverse Protein Folding
- arxiv url: http://arxiv.org/abs/2210.03488v1
- Date: Wed, 5 Oct 2022 19:43:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 15:01:39.646304
- Title: AlphaFold Distillation for Improved Inverse Protein Folding
- Title(参考訳): 改良型逆タンパク質成形のためのアルファフォールド蒸留法
- Authors: Igor Melnyk, Aurelie Lozano, Payel Das, Vijil Chenthamarakshan
- Abstract要約: 逆タンパク質フォールディングは、バイオエンジニアリングと薬物発見における基本的な設計課題の1つである。
最近提案された、AlphaFoldのような前方フォールディングモデルは、タンパク質配列が与えられた構造を正確に推定する前例のない機会を提供する。
我々は,pTMやpLDDTスコアなどの折りたたみモデルの信頼性測定値に関する知識蒸留を行い,より小さく,より高速で,エンドツーエンドで識別可能な蒸留モデルを得る。
- 参考スコア(独自算出の注目度): 20.093834651260668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inverse protein folding, i.e., designing sequences that fold into a given
three-dimensional structure, is one of the fundamental design challenges in
bio-engineering and drug discovery. Traditionally, inverse folding mainly
involves learning from sequences that have an experimentally resolved
structure. However, the known structures cover only a tiny space of the protein
sequences, imposing limitations on the model learning. Recently proposed
forward folding models, e.g., AlphaFold, offer unprecedented opportunity for
accurate estimation of the structure given a protein sequence. Naturally,
incorporating a forward folding model as a component of an inverse folding
approach offers the potential of significantly improving the inverse folding,
as the folding model can provide a feedback on any generated sequence in the
form of the predicted protein structure or a structural confidence metric.
However, at present, these forward folding models are still prohibitively slow
to be a part of the model optimization loop during training. In this work, we
propose to perform knowledge distillation on the folding model's confidence
metrics, e.g., pTM or pLDDT scores, to obtain a smaller, faster and end-to-end
differentiable distilled model, which then can be included as part of the
structure consistency regularized inverse folding model training. Moreover, our
regularization technique is general enough and can be applied in other design
tasks, e.g., sequence-based protein infilling. Extensive experiments show a
clear benefit of our method over the non-regularized baselines. For example, in
inverse folding design problems we observe up to 3% improvement in sequence
recovery and up to 45% improvement in protein diversity, while still preserving
structural consistency of the generated sequences.
- Abstract(参考訳): 逆タンパク質の折り畳み、すなわち、与えられた3次元構造に折り畳まれた配列を設計することは、バイオエンジニアリングと薬物発見における基本的な設計課題の1つである。
伝統的に、逆折り畳みは主に実験的に解決された構造を持つ列から学習する。
しかし、既知の構造は、タンパク質配列の小さな空間のみをカバーし、モデル学習に制限を与える。
最近提案された前方折り畳みモデル、例えばアルファフォールドは、タンパク質配列が与えられた構造を正確に推定する前例のない機会を提供する。
自然に、逆折り畳みアプローチの構成要素として前方折り畳みモデルを取り込むことは、予測されたタンパク質構造または構造的信頼度メトリックの形で生成された任意の配列に対するフィードバックを提供することができるため、逆折り畳みモデルを大幅に改善する可能性をもたらす。
しかし、現在、これらの前方折り畳みモデルは、トレーニング中にモデル最適化ループの一部となることが禁じられている。
本研究では,ptmやplddtスコアといった折り畳みモデルの信頼度指標に関する知識蒸留を行い,より小さく,より高速でエンドツーエンドの微分可能な蒸留モデルを得る。
さらに,本手法は汎用的であり,タンパク質インフィルディングなど他の設計タスクにも適用可能である。
非正規化ベースラインに対する我々の手法の明らかな利点を示す。
例えば、逆折り畳み設計問題では、生成した配列の構造的一貫性を維持しながら、シーケンス回復率を最大3%向上させ、タンパク質多様性を最大45%向上させた。
関連論文リスト
- Improving Inverse Folding for Peptide Design with Diversity-regularized Direct Preference Optimization [33.131551374836775]
逆折り畳みモデルは、望ましい参照構造に折り畳むアミノ酸配列を予測する。
メッセージパッシングエンコーダデコーダモデルであるProteinMPNNは、参照構造から新しいシーケンスを確実に生成するように訓練されている。
しかし、ペプチドに適用すると、これらのモデルは参照構造に折りたたみしない反復配列を生成する傾向がある。
論文 参考訳(メタデータ) (2024-10-25T11:04:02Z) - Structure Language Models for Protein Conformation Generation [66.42864253026053]
伝統的な物理学に基づくシミュレーション手法は、しばしばサンプリング平衡整合に苦しむ。
深い生成モデルは、より効率的な代替としてタンパク質のコンホメーションを生成することを約束している。
本稿では,効率的なタンパク質コンホメーション生成のための新しいフレームワークとして構造言語モデリングを紹介する。
論文 参考訳(メタデータ) (2024-10-24T03:38:51Z) - Reinforcement learning on structure-conditioned categorical diffusion for protein inverse folding [0.0]
逆折り畳みは、複数の列が同じ構造に折り畳むことができる1対多の問題である。
RL-DIFは、逆折り畳みのカテゴリー的拡散モデルであり、シーケンス回復に基づいて事前訓練され、強化学習によって調整される。
実験の結果、RL-DIFはCATH 4.2で29%の折りたたみ可能な多様性を達成できることが示された。
論文 参考訳(メタデータ) (2024-10-22T16:50:34Z) - AlphaFold Meets Flow Matching for Generating Protein Ensembles [11.1639408863378]
本研究では,タンパク質のコンフォメーション・ランドスケープを学習・サンプリングするためのフローベース生成モデリング手法を開発した。
提案手法はAlphaFoldとMSAサブサンプリングと比較して精度と多様性の組合せが優れている。
本手法は,MD軌道の再現よりも高速な壁面収束により,静的なPDB構造を多様化することができる。
論文 参考訳(メタデータ) (2024-02-07T13:44:47Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Predicting protein variants with equivariant graph neural networks [0.0]
我々は,同変グラフニューラルネットワーク(EGNN)と配列に基づくアプローチによる有望なアミノ酸変異の同定能力の比較を行った。
提案する構造的アプローチは, より少ない分子で訓練しながら, 配列に基づくアプローチと競合する性能を実現する。
論文 参考訳(メタデータ) (2023-06-21T12:44:52Z) - Protein Design with Guided Discrete Diffusion [67.06148688398677]
タンパク質設計における一般的なアプローチは、生成モデルと条件付きサンプリングのための識別モデルを組み合わせることである。
離散拡散モデルのためのガイダンス手法であるdiffusioN Optimized Smpling (NOS)を提案する。
NOSは、構造に基づく手法の重要な制限を回避し、シーケンス空間で直接設計を行うことができる。
論文 参考訳(メタデータ) (2023-05-31T16:31:24Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - Unsupervisedly Prompting AlphaFold2 for Few-Shot Learning of Accurate
Folding Landscape and Protein Structure Prediction [28.630603355510324]
そこで我々は,メタ生成モデルであるEvoGenを提案し,貧弱なMSAターゲットに対するAlphaFold2のアンダーパフォーマンスを改善する。
EvoGenは、キャリブレーションまたは実質的に生成されたホモログシーケンスでモデルにプロンプトすることで、AlphaFold2を低データで正確に折り畳むのに役立つ。
論文 参考訳(メタデータ) (2022-08-20T10:23:17Z) - HelixFold-Single: MSA-free Protein Structure Prediction by Using Protein
Language Model as an Alternative [61.984700682903096]
HelixFold-Singleは、大規模なタンパク質言語モデルとAlphaFold2の優れた幾何学的学習能力を組み合わせるために提案されている。
提案手法は,数千万の一次配列を持つ大規模タンパク質言語モデルを事前学習する。
我々は、一次系列のみから原子の3次元座標を予測するために、エンドツーエンドの微分可能なモデルを得る。
論文 参考訳(メタデータ) (2022-07-28T07:30:33Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。