論文の概要: Steering Generative Models with Experimental Data for Protein Fitness Optimization
- arxiv url: http://arxiv.org/abs/2505.15093v1
- Date: Wed, 21 May 2025 04:30:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.866034
- Title: Steering Generative Models with Experimental Data for Protein Fitness Optimization
- Title(参考訳): タンパク質適合性最適化のための実験データ付きステアリング生成モデル
- Authors: Jason Yang, Wenda Chu, Daniel Khalil, Raul Astudillo, Bruce J. Wittmann, Frances H. Arnold, Yisong Yue,
- Abstract要約: タンパク質の適合性最適化は、可能なシーケンスの大きな設計空間において、所望の量的特性を最大化するシーケンスを見つけることを含む。
ステアリングタンパク質生成モデル(例えば拡散モデル、言語モデル)の最近の発展は、有望なアプローチである。
本稿では,タンパク質言語モデルを用いた強化学習などの代替手法と比較して,プラグ・アンド・プレイ指導方式が有利であることを示す。
- 参考スコア(独自算出の注目度): 22.131533900376457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protein fitness optimization involves finding a protein sequence that maximizes desired quantitative properties in a combinatorially large design space of possible sequences. Recent developments in steering protein generative models (e.g diffusion models, language models) offer a promising approach. However, by and large, past studies have optimized surrogate rewards and/or utilized large amounts of labeled data for steering, making it unclear how well existing methods perform and compare to each other in real-world optimization campaigns where fitness is measured by low-throughput wet-lab assays. In this study, we explore fitness optimization using small amounts (hundreds) of labeled sequence-fitness pairs and comprehensively evaluate strategies such as classifier guidance and posterior sampling for guiding generation from different discrete diffusion models of protein sequences. We also demonstrate how guidance can be integrated into adaptive sequence selection akin to Thompson sampling in Bayesian optimization, showing that plug-and-play guidance strategies offer advantages compared to alternatives such as reinforcement learning with protein language models.
- Abstract(参考訳): タンパク質適合性最適化は、可能な配列の組合せ的に大きな設計空間において、所望の量的特性を最大化するタンパク質配列を見つけることを含む。
ステアリングタンパク質生成モデル(例えば拡散モデル、言語モデル)の最近の発展は、有望なアプローチである。
しかし, 従来の研究はサロゲート報酬を最適化し, 大量のラベル付きデータを操舵に利用しており, 低出力ウェットラブアッセイによって適合度を測定する実世界の最適化キャンペーンにおいて, 既存の手法がどの程度機能するかは明らかになっていない。
本研究では,ラベル付き配列適合性ペアの少量(数百個)を用いた適合度最適化について検討し,タンパク質配列の異なる拡散モデルから生成する際の分類器ガイダンスや後部サンプリングなどの戦略を包括的に評価する。
また、ベイズ最適化におけるトンプソンサンプリングと同様の適応配列選択にガイダンスを組み込む方法を示し、プラグ・アンド・プレイ誘導戦略は、タンパク質言語モデルを用いた強化学習のような代替手法と比較して利点があることを示した。
関連論文リスト
- Preference-Guided Diffusion for Multi-Objective Offline Optimization [64.08326521234228]
オフライン多目的最適化のための優先誘導拡散モデルを提案する。
我々の指導は、ある設計が他の設計を支配する確率を予測するために訓練された選好モデルである。
本結果は,多種多様な高品質な解を生成する上での分類器誘導拡散モデルの有効性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-21T16:49:38Z) - Large Language Model is Secretly a Protein Sequence Optimizer [24.55348363931866]
本研究では,与えられた野生型配列から,高い適合度を持つタンパク質配列を見つけることを目的としたタンパク質配列工学的問題を考える。
大規模言語モデル(LLM)は、大量のテキストで訓練されているにもかかわらず、秘密裏にタンパク質配列であることを示す。
論文 参考訳(メタデータ) (2025-01-16T03:44:16Z) - Functional Graphical Models: Structure Enables Offline Data-Driven Optimization [111.28605744661638]
構造がサンプル効率のよいデータ駆動最適化を実現する方法を示す。
また、FGM構造自体を推定するデータ駆動最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-08T22:33:14Z) - Protein Design with Guided Discrete Diffusion [67.06148688398677]
タンパク質設計における一般的なアプローチは、生成モデルと条件付きサンプリングのための識別モデルを組み合わせることである。
離散拡散モデルのためのガイダンス手法であるdiffusioN Optimized Smpling (NOS)を提案する。
NOSは、構造に基づく手法の重要な制限を回避し、シーケンス空間で直接設計を行うことができる。
論文 参考訳(メタデータ) (2023-05-31T16:31:24Z) - ODBO: Bayesian Optimization with Search Space Prescreening for Directed Protein Evolution [18.726398852721204]
タンパク質指向進化のための効率的で実験的な設計指向のクローズドループ最適化フレームワークを提案する。
ODBOは、新しい低次元タンパク質エンコーディング戦略と、外乱検出による検索空間事前スクリーニングによって強化されたベイズ最適化を組み合わせている。
本研究は, タンパク質指向進化実験を4回実施し, 興味のある変異を見出すためのフレームワークの能力を実証した。
論文 参考訳(メタデータ) (2022-05-19T13:21:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。