論文の概要: Distilled Protein Backbone Generation
- arxiv url: http://arxiv.org/abs/2510.03095v3
- Date: Mon, 27 Oct 2025 19:32:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 17:50:20.148188
- Title: Distilled Protein Backbone Generation
- Title(参考訳): 蒸留タンパク質のバックボーン生成
- Authors: Liyang Xie, Haoran Zhang, Zhendong Wang, Wesley Tansey, Mingyuan Zhou,
- Abstract要約: 拡散およびフローベースの生成モデルは、デノボタンパク質の設計に前例のない能力を提供する。
これらのモデルは生成速度によって制限され、しばしば逆拡散過程において数百の反復的なステップを必要とする。
本研究は,Score Identity Distillation (SiD) を用いて,数段階のタンパク質バックボーン生成装置の訓練を行う方法を示す。
- 参考スコア(独自算出の注目度): 59.63474232035653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion- and flow-based generative models have recently demonstrated strong performance in protein backbone generation tasks, offering unprecedented capabilities for de novo protein design. However, while achieving notable performance in generation quality, these models are limited by their generating speed, often requiring hundreds of iterative steps in the reverse-diffusion process. This computational bottleneck limits their practical utility in large-scale protein discovery, where thousands to millions of candidate structures are needed. To address this challenge, we explore the techniques of score distillation, which has shown great success in reducing the number of sampling steps in the vision domain while maintaining high generation quality. However, a straightforward adaptation of these methods results in unacceptably low designability. Through extensive study, we have identified how to appropriately adapt Score identity Distillation (SiD), a state-of-the-art score distillation strategy, to train few-step protein backbone generators which significantly reduce sampling time, while maintaining comparable performance to their pretrained teacher model. In particular, multistep generation combined with inference time noise modulation is key to the success. We demonstrate that our distilled few-step generators achieve more than a 20-fold improvement in sampling speed, while achieving similar levels of designability, diversity, and novelty as the Proteina teacher model. This reduction in inference cost enables large-scale in silico protein design, thereby bringing diffusion-based models closer to real-world protein engineering applications. The PyTorch implementation is available at https://github.com/LY-Xie/SiD_Protein
- Abstract(参考訳): 拡散およびフローに基づく生成モデルは、最近、タンパク質のバックボーン生成タスクにおいて強力な性能を示し、デノボタンパク質の設計に前例のない能力を提供している。
しかしながら、生成品質において顕著な性能を達成する一方で、これらのモデルは生成速度によって制限され、しばしば逆拡散過程において数百の反復的なステップを必要とする。
この計算ボトルネックは、数千から数百万の候補構造を必要とする大規模タンパク質発見における実用性を制限している。
この課題に対処するため,高次品質を維持しつつ,視覚領域におけるサンプリングステップ数を減らし,大きな成功を収めたスコア蒸留技術について検討した。
しかし、これらの手法の直接的な適応は、許容できる限り低い設計性をもたらす。
そこで,本研究では,Score Identity Distillation (SiD) を適宜適用し,事前訓練した教師モデルに匹敵する性能を維持しつつ,サンプリング時間を著しく短縮する数ステップのタンパク質バックボーン生成装置の訓練を行った。
特に、推測時間ノイズ変調と組み合わせたマルチステップ生成が成功の鍵となる。
蒸留した数段生成装置はサンプリング速度を20倍以上に向上し, 設計性, 多様性, 新規性をProteinaの教師モデルと同等に達成した。
この推論コストの削減は、サイリコタンパク質の設計の大規模化を可能にし、現実のタンパク質工学の応用に拡散ベースのモデルをもたらす。
PyTorchの実装はhttps://github.com/LY-Xie/SiD_Proteinで公開されている。
関連論文リスト
- SaDiT: Efficient Protein Backbone Design via Latent Structural Tokenization and Diffusion Transformers [50.18388227899971]
本稿では,SaProt TokenizationとDiffusion Transformer (DiT)アーキテクチャを統合することで,タンパク質のバックボーン生成を促進する新しいフレームワークであるSaDiTを提案する。
実験により、SaDiTはRFDiffusionやProteinaといった最先端モデルよりも計算速度と構造的生存性が優れていることが示された。
論文 参考訳(メタデータ) (2026-02-06T13:50:13Z) - Directed Evolution of Proteins via Bayesian Optimization in Embedding Space [0.0]
本稿では,機械学習によるタンパク質の進化を支援する新しい手法を提案する。
ベイズ最適化と、事前訓練されたタンパク質言語モデルから抽出されたタンパク質変異の情報表現を組み合わせる。
提案手法は、回帰目標を用いた最先端の機械学習支援指向進化法より優れる。
論文 参考訳(メタデータ) (2025-09-05T10:47:49Z) - ProteinZero: Self-Improving Protein Generation via Online Reinforcement Learning [49.2607661375311]
本稿では,逆折り畳みモデルの計算的拡張性,自動化,継続的な自己改善を可能にする新しいフレームワークであるProteinZeroを提案する。
ProteinZeroは、タンパク質設計のすべての主要な指標において、既存の手法を大幅に上回っている。
特に、CATH-4.3上で実行されるRL全体は、報酬を含む3日以内に1つの8X GPUノードで実行できる。
論文 参考訳(メタデータ) (2025-06-09T06:08:59Z) - Reward-Guided Iterative Refinement in Diffusion Models at Test-Time with Applications to Protein and DNA Design [87.58981407469977]
進化的アルゴリズムにインスパイアされた拡散モデルを用いた推論時間報酬最適化のための新しいフレームワークを提案する。
当社のアプローチでは,各イテレーションにおける2つのステップ – ノイズ発生と報酬誘導という,反復的な改善プロセスを採用しています。
論文 参考訳(メタデータ) (2025-02-20T17:48:45Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - Laughing Hyena Distillery: Extracting Compact Recurrences From
Convolutions [101.08706223326928]
近年のアテンションフリーシーケンスモデルの発展は、トランスフォーマーのコアにあるアテンション演算子の代替として、畳み込みに依存している。
本稿では,事前学習した長大な畳み込みアーキテクチャにおいて,トークン当たりの計算コストとメモリコストを$mathcal O(1)$にすることを提案する。
論文 参考訳(メタデータ) (2023-10-28T18:40:03Z) - Protein Discovery with Discrete Walk-Jump Sampling [41.01079393600248]
我々はスムーズなエネルギー関数を学び、ランゲヴィン・マルコフ連鎖モンテカルロの滑らかなデータ多様体からサンプリングし、一段階のデノイングで真のデータ多様体に投影する。
我々の離散ウォーク・ジャンプサンプリング形式は、エネルギーベースモデルの対照的な分散訓練とスコアベースモデルのサンプル品質の改善を組み合わせたものである。
抗体タンパク質生成モデルにおける本手法のロバスト性を評価し, タンパク質生成モデルに分布整合性スコアを導入する。
論文 参考訳(メタデータ) (2023-06-08T17:03:46Z) - Improving few-shot learning-based protein engineering with evolutionary
sampling [0.0]
本稿では,高価なウェットラボテストサイクルを加速することを目的とした,新規なタンパク質設計のための数発の学習手法を提案する。
提案手法は, 所望のタンパク質機能に対する個別のフィットネスランドスケープを生成する半教師ありトランスファー学習法と, 新たな進化的モンテカルロ連鎖サンプリングアルゴリズムとから構成される。
予測された高適合性遺伝子アクチベーターを実験的にスクリーニングすることにより,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-05-23T23:07:53Z) - Plug & Play Directed Evolution of Proteins with Gradient-based Discrete
MCMC [1.0499611180329804]
機械学習ベースのタンパク質工学の長年の目標は、新しい突然変異の発見を加速することである。
本稿では,シリコにおけるタンパク質の進化のためのサンプリングフレームワークについて紹介する。
これらのモデルを構成することで、未知の突然変異を評価し、機能的タンパク質を含む可能性のある配列空間の領域を探索する能力を向上させることを目指している。
論文 参考訳(メタデータ) (2022-12-20T00:26:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。