論文の概要: ProtFlow: Fast Protein Sequence Design via Flow Matching on Compressed Protein Language Model Embeddings
- arxiv url: http://arxiv.org/abs/2504.10983v1
- Date: Tue, 15 Apr 2025 08:46:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:11:02.381028
- Title: ProtFlow: Fast Protein Sequence Design via Flow Matching on Compressed Protein Language Model Embeddings
- Title(参考訳): ProtFlow:圧縮されたタンパク質言語モデル埋め込み上でのフローマッチングによる高速タンパク質配列設計
- Authors: Zitai Kong, Yiheng Zhu, Yinlong Xu, Hanjing Zhou, Mingzhe Yin, Jialu Wu, Hongxia Xu, Chang-Yu Hsieh, Tingjun Hou, Jian Wu,
- Abstract要約: ProtFlowは高速なフローマッチングベースのタンパク質配列設計フレームワークである。
潜在空間の圧縮と平滑化により、ProtFlowは限られた計算リソースをトレーニングしながらパフォーマンスを向上させる。
一般ペプチドや長鎖タンパク質,抗菌ペプチド,抗体など,多種多様なタンパク質設計タスクにおけるProtFlowの評価を行った。
- 参考スコア(独自算出の注目度): 8.068149785650649
- License:
- Abstract: The design of protein sequences with desired functionalities is a fundamental task in protein engineering. Deep generative methods, such as autoregressive models and diffusion models, have greatly accelerated the discovery of novel protein sequences. However, these methods mainly focus on local or shallow residual semantics and suffer from low inference efficiency, large modeling space and high training cost. To address these challenges, we introduce ProtFlow, a fast flow matching-based protein sequence design framework that operates on embeddings derived from semantically meaningful latent space of protein language models. By compressing and smoothing the latent space, ProtFlow enhances performance while training on limited computational resources. Leveraging reflow techniques, ProtFlow enables high-quality single-step sequence generation. Additionally, we develop a joint design pipeline for the design scene of multichain proteins. We evaluate ProtFlow across diverse protein design tasks, including general peptides and long-chain proteins, antimicrobial peptides, and antibodies. Experimental results demonstrate that ProtFlow outperforms task-specific methods in these applications, underscoring its potential and broad applicability in computational protein sequence design and analysis.
- Abstract(参考訳): 所望の機能を持つタンパク質配列の設計は、タンパク質工学の基本的な課題である。
自己回帰モデルや拡散モデルのような深い生成法は、新しいタンパク質配列の発見を大幅に加速させた。
しかし、これらの手法は主に局所的あるいは浅い残差セマンティクスに焦点を当てており、推論効率の低下、大規模なモデリングスペース、高いトレーニングコストに悩まされている。
これらの課題に対処するため,高速フローマッチングに基づくタンパク質配列設計フレームワークであるProtFlowを紹介した。
潜在空間の圧縮と平滑化により、ProtFlowは限られた計算リソースをトレーニングしながらパフォーマンスを向上させる。
リフロー技術を活用して、ProtFlowは高品質な単一ステップシーケンス生成を可能にする。
さらに,多鎖タンパク質の設計シーンのための共同設計パイプラインを構築した。
一般ペプチドや長鎖タンパク質,抗菌ペプチド,抗体など,多種多様なタンパク質設計タスクにおけるProtFlowの評価を行った。
実験の結果,ProtFlowはこれらのアプリケーションにおいてタスク固有の手法よりも優れており,計算タンパク質配列設計および解析におけるその可能性と幅広い適用性を示している。
関連論文リスト
- ReQFlow: Rectified Quaternion Flow for Efficient and High-Quality Protein Backbone Generation [24.13216117355207]
高速かつ高品質なタンパク質のバックボーン生成のための新しい補正四元流(ReQFlow)マッチング法を提案する。
本手法は,タンパク質鎖の各残基に対するランダムノイズから局所翻訳と3次元回転を生成する。
実験により、ReQFlowはタンパク質のバックボーン生成において最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-02-20T15:20:37Z) - Computational Protein Science in the Era of Large Language Models (LLMs) [54.35488233989787]
計算タンパク質科学(Computational protein science)は、タンパク質配列構造-機能パラダイムにおける知識を明らかにすること、および応用を開発することを目的としている。
最近、言語モデル (Language Models, PLM) は、前例のない言語処理と一般化能力のために、AIのマイルストーンとして登場した。
論文 参考訳(メタデータ) (2025-01-17T16:21:18Z) - Multi-Scale Representation Learning for Protein Fitness Prediction [31.735234482320283]
これまでの手法は主に、巨大でラベルなしのタンパク質配列や構造データセットに基づいて訓練された自己教師型モデルに依存してきた。
本稿では,タンパク質の機能を統合する新しいマルチモーダル表現学習フレームワークであるSequence-Structure-Surface Fitness (S3F)モデルを紹介する。
提案手法は,タンパク質言語モデルからの配列表現と,タンパク質のバックボーンと詳細な表面トポロジーをコードするGeometric Vector Perceptronネットワークを組み合わせる。
論文 参考訳(メタデータ) (2024-12-02T04:28:10Z) - Improving AlphaFlow for Efficient Protein Ensembles Generation [64.10918970280603]
効率的なタンパク質アンサンブル生成を実現するために,AlphaFlow-Litと呼ばれる特徴条件付き生成モデルを提案する。
AlphaFlow-LitはAlphaFlowとオンパーで動作し、予行訓練なしで蒸留されたバージョンを上回り、47倍のサンプリング加速を達成している。
論文 参考訳(メタデータ) (2024-07-08T13:36:43Z) - Sequence-Augmented SE(3)-Flow Matching For Conditional Protein Backbone Generation [55.93511121486321]
タンパク質構造生成のための新しいシーケンス条件付きフローマッチングモデルFoldFlow-2を紹介する。
我々は、以前の作業のPDBデータセットよりも桁違いに大きい新しいデータセットでFoldFlow-2を大規模にトレーニングします。
我々はFoldFlow-2が従来のタンパク質構造に基づく生成モデルよりも優れていることを実証的に観察した。
論文 参考訳(メタデータ) (2024-05-30T17:53:50Z) - PPFlow: Target-aware Peptide Design with Torsional Flow Matching [52.567714059931646]
ペプチド構造設計のためのねじれ角の内部構造をモデル化するために,textscPPFlowと呼ばれるターゲット認識型ペプチド設計手法を提案する。
さらに, PPBench2024というタンパク質-ペプチド結合データセットを構築した。
論文 参考訳(メタデータ) (2024-03-05T13:26:42Z) - Protein Sequence Design with Batch Bayesian Optimisation [0.0]
タンパク質配列設計は、有用な生物学的機能を持つ新規タンパク質の発見を目的とした、タンパク質工学における挑戦的な問題である。
有向進化は、実験室環境における進化のサイクルを模倣し、反復的プロトコルを実行する、タンパク質配列設計のための広く使われているアプローチである。
本稿では,タンパク質配列設計のための最適化手法であるBatch Bayesian Optimization (Batch BO) に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-18T14:53:20Z) - Protein Sequence and Structure Co-Design with Equivariant Translation [19.816174223173494]
既存のアプローチは自己回帰モデルまたは拡散モデルを用いてタンパク質配列と構造の両方を生成する。
本稿では,タンパク質配列と構造共設計が可能な新しいアプローチを提案する。
我々のモデルは、幾何学的制約と文脈特徴からの相互作用を推論する三角法を意識したエンコーダで構成されている。
全てのタンパク質アミノ酸は翻訳工程で1ショットずつ更新され、推論プロセスが大幅に加速される。
論文 参考訳(メタデータ) (2022-10-17T06:00:12Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - PDBench: Evaluating Computational Methods for Protein Sequence Design [2.0187324832551385]
本稿では, タンパク質のベンチマークを行い, 深層学習法の性能評価試験を提案する。
我々の堅牢なベンチマークは、その性能と実用性を評価するのに欠かせない設計手法の振る舞いに関する生物学的知見を提供する。
論文 参考訳(メタデータ) (2021-09-16T12:20:03Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。