論文の概要: Proteina: Scaling Flow-based Protein Structure Generative Models
- arxiv url: http://arxiv.org/abs/2503.00710v1
- Date: Sun, 02 Mar 2025 03:21:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:16:57.709283
- Title: Proteina: Scaling Flow-based Protein Structure Generative Models
- Title(参考訳): タンパク質:フローベースのタンパク質構造生成モデル
- Authors: Tomas Geffner, Kieran Didi, Zuobai Zhang, Danny Reidenbach, Zhonglin Cao, Jason Yim, Mario Geiger, Christian Dallago, Emine Kucukbenli, Arash Vahdat, Karsten Kreis,
- Abstract要約: proteinaは大規模フローベースのタンパク質バックボーンジェネレータで、コンディショニングに階層的な折りたたみラベルを頼っている。
タンパク質は、デノボタンパク質のバックボーン設計における最先端のパフォーマンスを達成し、前例のない長さで最大800個の残基を生産する。
- 参考スコア(独自算出の注目度): 36.49892014289605
- License:
- Abstract: Recently, diffusion- and flow-based generative models of protein structures have emerged as a powerful tool for de novo protein design. Here, we develop Proteina, a new large-scale flow-based protein backbone generator that utilizes hierarchical fold class labels for conditioning and relies on a tailored scalable transformer architecture with up to 5x as many parameters as previous models. To meaningfully quantify performance, we introduce a new set of metrics that directly measure the distributional similarity of generated proteins with reference sets, complementing existing metrics. We further explore scaling training data to millions of synthetic protein structures and explore improved training and sampling recipes adapted to protein backbone generation. This includes fine-tuning strategies like LoRA for protein backbones, new guidance methods like classifier-free guidance and autoguidance for protein backbones, and new adjusted training objectives. Proteina achieves state-of-the-art performance on de novo protein backbone design and produces diverse and designable proteins at unprecedented length, up to 800 residues. The hierarchical conditioning offers novel control, enabling high-level secondary-structure guidance as well as low-level fold-specific generation.
- Abstract(参考訳): 近年,デノボタンパク質設計の強力なツールとして,拡散型および流動型タンパク質構造生成モデルが出現している。
本稿では,階層型折り畳み型ラベルを用いた大規模フローベースタンパク質バックボーンジェネレータであるProteinaを開発し,従来のモデルに比べて最大5倍のパラメータを持つ拡張性のあるトランスフォーマーアーキテクチャに頼っている。
性能を有意に定量化するために、生成したタンパク質の分布類似性を参照セットで直接測定する新しいメトリクスセットを導入し、既存のメトリクスを補完する。
さらに、数百万の合成タンパク質構造に対するトレーニングデータのスケーリングについて検討し、タンパク質のバックボーン生成に適応したトレーニングおよびサンプリングレシピの改善について検討する。
これには、タンパク質のバックボーンのためのLoRAのような微調整戦略、分類子なしのガイダンスやタンパク質のバックボーンの自動誘導のような新しいガイダンス方法、新しい調整されたトレーニング目標が含まれる。
タンパク質は、デノボタンパク質のバックボーン設計における最先端のパフォーマンスを達成し、前例のない長さで最大800個の残基を生産する。
階層的条件付けは、ハイレベルな二次構造ガイダンスと低レベルな折りたたみ特異的生成を可能にする、新しい制御を提供する。
関連論文リスト
- SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - NaNa and MiGu: Semantic Data Augmentation Techniques to Enhance Protein Classification in Graph Neural Networks [60.48306899271866]
本稿では,背骨化学および側鎖生物物理情報をタンパク質分類タスクに組み込む新しい意味データ拡張手法を提案する。
具体的には, 分子生物学的, 二次構造, 化学結合, およびタンパク質のイオン特性を活用し, 分類作業を容易にする。
論文 参考訳(メタデータ) (2024-03-21T13:27:57Z) - Enhancing Protein Predictive Models via Proteins Data Augmentation: A
Benchmark and New Directions [58.819567030843025]
本稿では,これまで画像やテキストに用いたデータ拡張手法をタンパク質に拡張し,タンパク質関連タスクでこれらの手法をベンチマークする。
本稿では,2つの新規な意味レベルタンパク質増強法,すなわち,統合的グラディエント置換法とバック翻訳置換法を提案する。
最後に、拡張および提案された拡張を拡張プールに統合し、シンプルで効果的なフレームワークであるAutomated Protein Augmentation (APA)を提案する。
論文 参考訳(メタデータ) (2024-03-01T07:58:29Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - Generating Novel, Designable, and Diverse Protein Structures by
Equivariantly Diffusing Oriented Residue Clouds [0.0]
構造に基づくタンパク質設計は、設計可能で、新規で多様な構造を見つけることを目的としている。
生成モデルは、複雑なデータの低次元構造を暗黙的に学習することで、魅力的な代替手段を提供する。
我々は,3次元空間における配向参照フレームの雲を用いて離散時間拡散を行うタンパク質構造の生成モデルであるGenieを開発する。
論文 参考訳(メタデータ) (2023-01-29T16:44:19Z) - Plug & Play Directed Evolution of Proteins with Gradient-based Discrete
MCMC [1.0499611180329804]
機械学習ベースのタンパク質工学の長年の目標は、新しい突然変異の発見を加速することである。
本稿では,シリコにおけるタンパク質の進化のためのサンプリングフレームワークについて紹介する。
これらのモデルを構成することで、未知の突然変異を評価し、機能的タンパク質を含む可能性のある配列空間の領域を探索する能力を向上させることを目指している。
論文 参考訳(メタデータ) (2022-12-20T00:26:23Z) - Protein Sequence and Structure Co-Design with Equivariant Translation [19.816174223173494]
既存のアプローチは自己回帰モデルまたは拡散モデルを用いてタンパク質配列と構造の両方を生成する。
本稿では,タンパク質配列と構造共設計が可能な新しいアプローチを提案する。
我々のモデルは、幾何学的制約と文脈特徴からの相互作用を推論する三角法を意識したエンコーダで構成されている。
全てのタンパク質アミノ酸は翻訳工程で1ショットずつ更新され、推論プロセスが大幅に加速される。
論文 参考訳(メタデータ) (2022-10-17T06:00:12Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Deep Generative Modeling for Protein Design [0.0]
ディープラーニングアプローチは、画像分類や自然言語処理などの分野で画期的な成果を上げている。
タンパク質の遺伝子モデルが開発され、既知のタンパク質配列を全て含む、特定のタンパク質ファミリーをモデル化する、または個々のタンパク質のダイナミクスを外挿する。
本稿では、タンパク質のモデリングに最も成功した5種類の生成モデルについて論じ、ガイドされたタンパク質設計のためのフレームワークを提供する。
論文 参考訳(メタデータ) (2021-08-31T14:38:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。