論文の概要: Distilled Protein Backbone Generation
- arxiv url: http://arxiv.org/abs/2510.03095v1
- Date: Fri, 03 Oct 2025 15:25:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.449787
- Title: Distilled Protein Backbone Generation
- Title(参考訳): 蒸留タンパク質のバックボーン生成
- Authors: Liyang Xie, Haoran Zhang, Zhendong Wang, Wesley Tansey, Mingyuan Zhou,
- Abstract要約: 拡散およびフローベースの生成モデルは、デノボタンパク質の設計に前例のない能力を提供する。
これらのモデルは生成速度によって制限され、しばしば逆拡散過程において数百の反復的なステップを必要とする。
本研究は,Score Identity Distillation (SiD) を用いて,数段階のタンパク質バックボーン生成装置の訓練を行う方法を示す。
蒸留した数段生成装置はサンプリング速度を20倍以上に向上し, 設計性, 多様性, 新規性をProteinaの教師モデルと同等に達成した。
- 参考スコア(独自算出の注目度): 59.63474232035653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion- and flow-based generative models have recently demonstrated strong performance in protein backbone generation tasks, offering unprecedented capabilities for de novo protein design. However, while achieving notable performance in generation quality, these models are limited by their generating speed, often requiring hundreds of iterative steps in the reverse-diffusion process. This computational bottleneck limits their practical utility in large-scale protein discovery, where thousands to millions of candidate structures are needed. To address this challenge, we explore the techniques of score distillation, which has shown great success in reducing the number of sampling steps in the vision domain while maintaining high generation quality. However, a straightforward adaptation of these methods results in unacceptably low designability. Through extensive study, we have identified how to appropriately adapt Score identity Distillation (SiD), a state-of-the-art score distillation strategy, to train few-step protein backbone generators which significantly reduce sampling time, while maintaining comparable performance to their pretrained teacher model. In particular, multistep generation combined with inference time noise modulation is key to the success. We demonstrate that our distilled few-step generators achieve more than a 20-fold improvement in sampling speed, while achieving similar levels of designability, diversity, and novelty as the Proteina teacher model. This reduction in inference cost enables large-scale in silico protein design, thereby bringing diffusion-based models closer to real-world protein engineering applications.
- Abstract(参考訳): 拡散およびフローに基づく生成モデルは、最近、タンパク質のバックボーン生成タスクにおいて強力な性能を示し、デノボタンパク質の設計に前例のない能力を提供している。
しかしながら、生成品質において顕著な性能を達成する一方で、これらのモデルは生成速度によって制限され、しばしば逆拡散過程において数百の反復的なステップを必要とする。
この計算ボトルネックは、数千から数百万の候補構造を必要とする大規模タンパク質発見における実用性を制限している。
この課題に対処するため,高次品質を維持しつつ,視覚領域におけるサンプリングステップ数を減らし,大きな成功を収めたスコア蒸留技術について検討した。
しかし、これらの手法の直接的な適応は、許容できる限り低い設計性をもたらす。
そこで,本研究では,Score Identity Distillation (SiD) を適宜適用し,事前訓練した教師モデルに匹敵する性能を維持しつつ,サンプリング時間を著しく短縮する数ステップのタンパク質バックボーン生成装置の訓練を行った。
特に、推測時間ノイズ変調と組み合わせたマルチステップ生成が成功の鍵となる。
蒸留した数段生成装置はサンプリング速度を20倍以上に向上し, 設計性, 多様性, 新規性をProteinaの教師モデルと同等に達成した。
この推論コストの削減は、サイリコタンパク質の設計の大規模化を可能にし、現実のタンパク質工学の応用に拡散ベースのモデルをもたらす。
関連論文リスト
- Directed Evolution of Proteins via Bayesian Optimization in Embedding Space [0.0]
本稿では,機械学習によるタンパク質の進化を支援する新しい手法を提案する。
ベイズ最適化と、事前訓練されたタンパク質言語モデルから抽出されたタンパク質変異の情報表現を組み合わせる。
提案手法は、回帰目標を用いた最先端の機械学習支援指向進化法より優れる。
論文 参考訳(メタデータ) (2025-09-05T10:47:49Z) - ProteinZero: Self-Improving Protein Generation via Online Reinforcement Learning [49.2607661375311]
本稿では,逆折り畳みモデルの計算的拡張性,自動化,継続的な自己改善を可能にする新しいフレームワークであるProteinZeroを提案する。
ProteinZeroは、タンパク質設計のすべての主要な指標において、既存の手法を大幅に上回っている。
特に、CATH-4.3上で実行されるRL全体は、報酬を含む3日以内に1つの8X GPUノードで実行できる。
論文 参考訳(メタデータ) (2025-06-09T06:08:59Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - Laughing Hyena Distillery: Extracting Compact Recurrences From
Convolutions [101.08706223326928]
近年のアテンションフリーシーケンスモデルの発展は、トランスフォーマーのコアにあるアテンション演算子の代替として、畳み込みに依存している。
本稿では,事前学習した長大な畳み込みアーキテクチャにおいて,トークン当たりの計算コストとメモリコストを$mathcal O(1)$にすることを提案する。
論文 参考訳(メタデータ) (2023-10-28T18:40:03Z) - Protein Discovery with Discrete Walk-Jump Sampling [41.01079393600248]
我々はスムーズなエネルギー関数を学び、ランゲヴィン・マルコフ連鎖モンテカルロの滑らかなデータ多様体からサンプリングし、一段階のデノイングで真のデータ多様体に投影する。
我々の離散ウォーク・ジャンプサンプリング形式は、エネルギーベースモデルの対照的な分散訓練とスコアベースモデルのサンプル品質の改善を組み合わせたものである。
抗体タンパク質生成モデルにおける本手法のロバスト性を評価し, タンパク質生成モデルに分布整合性スコアを導入する。
論文 参考訳(メタデータ) (2023-06-08T17:03:46Z) - Plug & Play Directed Evolution of Proteins with Gradient-based Discrete
MCMC [1.0499611180329804]
機械学習ベースのタンパク質工学の長年の目標は、新しい突然変異の発見を加速することである。
本稿では,シリコにおけるタンパク質の進化のためのサンプリングフレームワークについて紹介する。
これらのモデルを構成することで、未知の突然変異を評価し、機能的タンパク質を含む可能性のある配列空間の領域を探索する能力を向上させることを目指している。
論文 参考訳(メタデータ) (2022-12-20T00:26:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。