論文の概要: Generative modeling, design and analysis of spider silk protein
sequences for enhanced mechanical properties
- arxiv url: http://arxiv.org/abs/2309.10170v1
- Date: Mon, 18 Sep 2023 21:38:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 07:07:20.353279
- Title: Generative modeling, design and analysis of spider silk protein
sequences for enhanced mechanical properties
- Title(参考訳): スパイダーシルクタンパク質配列の創製、設計および解析による機械的特性の向上
- Authors: Wei Lu, David L. Kaplan, Markus J. Buehler
- Abstract要約: そこで本研究では,新しいクモの糸状タンパク質配列を設計するための多言語モデルを提案する。
このモデルは、関連する繊維レベルの力学的性質が存在する1000個の主要なアンパルススパイドリン (MaSp) 配列に微調整される。
- 参考スコア(独自算出の注目度): 4.933851214936362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spider silks are remarkable materials characterized by superb mechanical
properties such as strength, extensibility and lightweightedness. Yet, to date,
limited models are available to fully explore sequence-property relationships
for analysis and design. Here we propose a custom generative large-language
model to enable design of novel spider silk protein sequences to meet complex
combinations of target mechanical properties. The model, pretrained on a large
set of protein sequences, is fine-tuned on ~1,000 major ampullate spidroin
(MaSp) sequences for which associated fiber-level mechanical properties exist,
to yield an end-to-end forward and inverse generative strategy. Performance is
assessed through: (1), a novelty analysis and protein type classification for
generated spidroin sequences through BLAST searches, (2) property evaluation
and comparison with similar sequences, (3) comparison of molecular structures,
as well as, and (4) a detailed sequence motif analyses. We generate silk
sequences with property combinations that do not exist in nature, and develop a
deep understanding the mechanistic roles of sequence patterns in achieving
overarching key mechanical properties (elastic modulus, strength, toughness,
failure strain). The model provides an efficient approach to expand the silkome
dataset, facilitating further sequence-structure analyses of silks, and
establishes a foundation for synthetic silk design and optimization.
- Abstract(参考訳): クモ糸は強度、伸縮性、軽量性といった優れた機械的特性を特徴とする優れた材料である。
しかし、これまでは、解析と設計のためのシーケンス-プロパティ関係を完全に探求する限定モデルが利用可能である。
本稿では,新規なスパイダーシルクタンパク質配列の設計を目標の機械的特性の複雑な組み合わせに適合させるカスタム生成型大言語モデルを提案する。
多数のタンパク質配列に基づいて事前訓練されたこのモデルは、繊維レベルの機械的特性が関連する1,000以上の主要両親媒性スピロリン(masp)配列に基づいて微調整され、エンドツーエンドの前方および逆生成戦略が得られる。
1) 発破探索による生成スピドロリン配列の新規解析とタンパク質型分類, (2) 特性評価と類似配列との比較, (3) 分子構造の比較, そして(4) 詳細な配列モチーフ解析を行った。
自然界に存在しない性質の組み合わせを持つ絹の配列を生成し,重要な機械的特性(弾性率,強度,靭性,破壊ひずみ)を克服する上でのシーケンスパターンの力学的役割を深く理解する。
このモデルは、シルコメデータセットを拡張するための効率的なアプローチを提供し、シルクのさらなるシーケンス構造分析を促進し、合成シルクの設計と最適化の基礎を確立する。
関連論文リスト
- Efficient Symmetry-Aware Materials Generation via Hierarchical Generative Flow Networks [52.13486402193811]
新しい固体材料は、結晶構造の広大な空間を急速に探索し、安定した領域を探索する必要がある。
既存の手法では、大きな材料空間を探索し、望ましい特性と要求を持った多様なサンプルを生成するのに苦労している。
本研究では, 材料空間の対称性を効果的に活用し, 所望の特性を持つ結晶構造を生成するために, 階層的探索戦略を用いた新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2024-11-06T23:53:34Z) - SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - DPLM-2: A Multimodal Diffusion Protein Language Model [75.98083311705182]
DPLM-2は, 離散拡散タンパク質言語モデル(DPLM)を拡張し, 配列と構造の両方に適合する多モーダルタンパク質基盤モデルである。
DPLM-2は、配列と構造、およびその限界と条件の結合分布を学習する。
実験によりDPLM-2は高度に互換性のあるアミノ酸配列とそれに対応する3D構造を同時に生成できることが示された。
論文 参考訳(メタデータ) (2024-10-17T17:20:24Z) - Dynamic PDB: A New Dataset and a SE(3) Model Extension by Integrating Dynamic Behaviors and Physical Properties in Protein Structures [15.819618708991598]
約12.6Kタンパク質を含む大規模データセットであるDynamic PDBを導入する。
我々は、原子速度と力、ポテンシャルと運動エネルギー、シミュレーション環境の温度を含む、総合的な物理特性スイートを提供する。
本研究は, 軌道予測の課題に対して, 提案したデータセット上での最先端手法の評価を行う。
論文 参考訳(メタデータ) (2024-08-22T14:06:01Z) - Sequence-Augmented SE(3)-Flow Matching For Conditional Protein Backbone Generation [55.93511121486321]
タンパク質構造生成のための新しいシーケンス条件付きフローマッチングモデルFoldFlow-2を紹介する。
我々は、以前の作業のPDBデータセットよりも桁違いに大きい新しいデータセットでFoldFlow-2を大規模にトレーニングします。
我々はFoldFlow-2が従来のタンパク質構造に基づく生成モデルよりも優れていることを実証的に観察した。
論文 参考訳(メタデータ) (2024-05-30T17:53:50Z) - DecompOpt: Controllable and Decomposed Diffusion Models for Structure-based Molecular Optimization [49.85944390503957]
DecompOptは、制御可能・拡散モデルに基づく構造に基づく分子最適化手法である。
DecompOptは強いde novoベースラインよりも優れた特性を持つ分子を効率よく生成できることを示す。
論文 参考訳(メタデータ) (2024-03-07T02:53:40Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Target-aware Variational Auto-encoders for Ligand Generation with
Multimodal Protein Representation Learning [2.01243755755303]
ターゲット認識型自動エンコーダであるTargetVAEを導入し、任意のタンパク質標的に対する高い結合親和性で生成する。
これは、タンパク質の異なる表現を単一のモデルに統一する最初の試みであり、これは我々がタンパク質マルチモーダルネットワーク(PMN)と呼ぶ。
論文 参考訳(メタデータ) (2023-08-02T12:08:17Z) - Protein Sequence and Structure Co-Design with Equivariant Translation [19.816174223173494]
既存のアプローチは自己回帰モデルまたは拡散モデルを用いてタンパク質配列と構造の両方を生成する。
本稿では,タンパク質配列と構造共設計が可能な新しいアプローチを提案する。
我々のモデルは、幾何学的制約と文脈特徴からの相互作用を推論する三角法を意識したエンコーダで構成されている。
全てのタンパク質アミノ酸は翻訳工程で1ショットずつ更新され、推論プロセスが大幅に加速される。
論文 参考訳(メタデータ) (2022-10-17T06:00:12Z) - Protein Structure and Sequence Generation with Equivariant Denoising
Diffusion Probabilistic Models [3.5450828190071646]
バイオエンジニアリングにおける重要な課題は、特定の3D構造と標的機能を可能にする化学的性質を持つタンパク質を設計することである。
タンパク質の構造と配列の両方の生成モデルを導入し、従来の分子生成モデルよりもはるかに大きなスケールで操作できる。
論文 参考訳(メタデータ) (2022-05-26T16:10:09Z) - Generating Tertiary Protein Structures via an Interpretative Variational
Autoencoder [16.554053012204182]
本稿では,タンパク質の機能的関連3次元構造を生成するための代替手法を提案し,評価する。
いくつかの深層建築の包括的評価は、新しい第三次構造をサンプリングするための潜伏空間を直接明らかにする上で、生成モデルの可能性を示唆している。
論文 参考訳(メタデータ) (2020-04-08T17:40:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。