論文の概要: Customizing Spider Silk: Generative Models with Mechanical Property Conditioning for Protein Engineering
- arxiv url: http://arxiv.org/abs/2504.08437v1
- Date: Fri, 11 Apr 2025 10:55:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:18:13.696407
- Title: Customizing Spider Silk: Generative Models with Mechanical Property Conditioning for Protein Engineering
- Title(参考訳): スパイダーシルクのカスタマイズ:タンパク質工学のための機械的特性条件付き生成モデル
- Authors: Neeru Dubey, Elin Karlsson, Miguel Angel Redondo, Johan Reimegård, Anna Rising, Hedvig Kjellström,
- Abstract要約: メカニカル特性をカスタマイズ可能なMaSp繰り返し配列を設計するための新しい計算フレームワークを提案する。
我々は,事前学習したProtGPT2タンパク質言語モデルを蒸留し,軽量なGPTベース生成モデルを構築した。
本モデルでは, 特定の機械的特性に適合した生物学的に可塑性なMaSpリピート領域を生成し, それらの特性を所定の配列で予測する。
- 参考スコア(独自算出の注目度): 4.154008159221185
- License:
- Abstract: The remarkable mechanical properties of spider silk, including its tensile strength and extensibility, are primarily governed by the repetitive regions of the proteins that constitute the fiber, the major ampullate spidroins (MaSps). However, establishing correlations between mechanical characteristics and repeat sequences is challenging due to the intricate sequence-structure-function relationships of MaSps and the limited availability of annotated datasets. In this study, we present a novel computational framework for designing MaSp repeat sequences with customizable mechanical properties. To achieve this, we developed a lightweight GPT-based generative model by distilling the pre-trained ProtGPT2 protein language model. The distilled model was subjected to multilevel fine-tuning using curated subsets of the Spider Silkome dataset. Specifically, we adapt the model for MaSp repeat generation using 6,000 MaSp repeat sequences and further refine it with 572 repeats associated with experimentally determined fiber-level mechanical properties. Our model generates biologically plausible MaSp repeat regions tailored to specific mechanical properties while also predicting those properties for given sequences. Validation includes sequence-level analysis, assessing physicochemical attributes and expected distribution of key motifs as well as secondary structure compositions. A correlation study using BLAST on the Spider Silkome dataset and a test set of MaSp repeats with known mechanical properties further confirmed the predictive accuracy of the model. This framework advances the rational design of spider silk-inspired biomaterials, offering a versatile tool for engineering protein sequences with tailored mechanical attributes.
- Abstract(参考訳): 糸の引張強さと伸縮性を含む特筆すべき機械的特性は、主に繊維を構成するタンパク質の反復領域である主要なアンパルススパイドロイン(MaSps)によって支配される。
しかし、MaSpsの複雑なシーケンス構造-機能関係と注釈付きデータセットの限られた可用性のため、機械的特性と繰り返しシーケンスの相関を確立することは困難である。
本研究では,MaSp繰り返し配列を機械的特性をカスタマイズできる新しい計算フレームワークを提案する。
そこで我々は,事前学習したProtGPT2タンパク質言語モデルを蒸留し,軽量なGPTベース生成モデルを開発した。
蒸留モデルでは, スパイダーシルコメデータセットのキュレートしたサブセットを用いてマルチレベル微調整を行った。
具体的には、6,000MaSp繰り返し配列を用いてMaSpリピート生成モデルを適用し、実験的に決定された繊維レベル力学特性に関連する572リピートでさらに洗練する。
本モデルでは, 特定の機械的特性に適合した生物学的に可塑性なMaSpリピート領域を生成し, それらの特性を所定の配列で予測する。
検証には、シーケンスレベルの分析、物理化学的特性の評価、キーモチーフの期待分布、二次構造組成が含まれる。
スパイダーシルコメデータセット上のBLASTと、既知の機械的特性を持つMaSp繰り返しのテストセットとの相関研究により、モデルの予測精度がさらに確認された。
この枠組みはクモの糸にインスパイアされた生体材料を合理的に設計し、機械的特性をカスタマイズしたタンパク質配列を設計するための汎用的なツールを提供する。
関連論文リスト
- GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Mechanics and Design of Metastructured Auxetic Patches with Bio-inspired Materials [0.5033155053523042]
本研究は, 絹フィブロインから作製した正弦波状構造を有する触覚パッチのニューラルネットワークによる計算モデルに焦点をあてる。
提案する枠組みは, 医療用バイオインスパイアされた生体組織の設計において, 重要な進歩を示すものである。
論文 参考訳(メタデータ) (2025-01-08T03:57:20Z) - SeqProFT: Applying LoRA Finetuning for Sequence-only Protein Property Predictions [8.112057136324431]
本研究では,ESM-2モデルのエンド・ツー・エンドの微調整を行うためにLoRA法を用いる。
下流ネットワークにマルチヘッドアテンション機構を統合して、シーケンス特徴とコンタクトマップ情報を組み合わせる。
論文 参考訳(メタデータ) (2024-11-18T12:40:39Z) - MeToken: Uniform Micro-environment Token Boosts Post-Translational Modification Prediction [65.33218256339151]
翻訳後修飾(PTM)はプロテオームの複雑さと機能を大幅に拡張する。
既存の計算手法は主に、配列依存的なモチーフの認識によって引き起こされる、PTM部位を予測するタンパク質配列に焦点を当てている。
本稿では,各酸のマイクロ環境をトークン化し,シーケンス情報と構造情報を統一された離散トークンに統合するMeTokenモデルを提案する。
論文 参考訳(メタデータ) (2024-11-04T07:14:28Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - Generative modeling, design and analysis of spider silk protein
sequences for enhanced mechanical properties [4.933851214936362]
そこで本研究では,新しいクモの糸状タンパク質配列を設計するための多言語モデルを提案する。
このモデルは、関連する繊維レベルの力学的性質が存在する1000個の主要なアンパルススパイドリン (MaSp) 配列に微調整される。
論文 参考訳(メタデータ) (2023-09-18T21:38:40Z) - Efficient Prediction of Peptide Self-assembly through Sequential and
Graphical Encoding [57.89530563948755]
この研究は、高度なディープラーニングモデルを用いたペプチドエンコーディングのベンチマーク分析を提供する。
等電点や水和自由エネルギーなど、幅広いペプチド関連予測のガイドとして機能する。
論文 参考訳(メタデータ) (2023-07-17T00:43:33Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - Protein language models trained on multiple sequence alignments learn
phylogenetic relationships [0.5639904484784126]
MSAトランスフォーマーの行アテンションの単純な組み合わせは、最先端の非教師なし構造接触予測に繋がった。
同様に単純で普遍的なMSAトランスフォーマーのカラムアテンションの組み合わせは、MSAのシーケンス間のハミング距離と強く相関していることを示す。
論文 参考訳(メタデータ) (2022-03-29T12:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。