論文の概要: Secondary Structure-Guided Novel Protein Sequence Generation with Latent Graph Diffusion
- arxiv url: http://arxiv.org/abs/2407.07443v1
- Date: Wed, 10 Jul 2024 07:54:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 17:31:45.658775
- Title: Secondary Structure-Guided Novel Protein Sequence Generation with Latent Graph Diffusion
- Title(参考訳): 遅延グラフ拡散を用いた二次構造誘導型新規タンパク質配列生成
- Authors: Yutong Hu, Yang Tan, Andi Han, Lirong Zheng, Liang Hong, Bingxin Zhou,
- Abstract要約: 粗い二次構造情報に基づいてタンパク質配列を生成する潜在グラフ拡散モデルであるCPDiffusion-SSを導入する。
CPDiffusion-SSは、構造的制約を保ちながら、様々な新しいアミノ酸配列を生産する際の柔軟性を向上することを示した。
本研究は,提案手法による世代業績の生物学的意義を明らかにするための一連の事例研究である。
- 参考スコア(独自算出の注目度): 8.26010811027237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of deep learning has introduced efficient approaches for de novo protein sequence design, significantly improving success rates and reducing development costs compared to computational or experimental methods. However, existing methods face challenges in generating proteins with diverse lengths and shapes while maintaining key structural features. To address these challenges, we introduce CPDiffusion-SS, a latent graph diffusion model that generates protein sequences based on coarse-grained secondary structural information. CPDiffusion-SS offers greater flexibility in producing a variety of novel amino acid sequences while preserving overall structural constraints, thus enhancing the reliability and diversity of generated proteins. Experimental analyses demonstrate the significant superiority of the proposed method in producing diverse and novel sequences, with CPDiffusion-SS surpassing popular baseline methods on open benchmarks across various quantitative measurements. Furthermore, we provide a series of case studies to highlight the biological significance of the generation performance by the proposed method. The source code is publicly available at https://github.com/riacd/CPDiffusion-SS
- Abstract(参考訳): ディープラーニングの出現は、de novoタンパク質配列設計のための効率的なアプローチを導入し、成功率を大幅に改善し、計算や実験手法と比較して開発コストを削減した。
しかし、既存の手法では、重要な構造的特徴を維持しながら、様々な長さと形状のタンパク質を生成することの難しさに直面している。
これらの課題に対処するために,粗粒二次構造情報に基づいてタンパク質配列を生成する潜在グラフ拡散モデルであるPDiffusion-SSを導入する。
CPDiffusion-SSは、全体的な構造的制約を保ちながら、様々な新しいアミノ酸配列を生産する際の柔軟性を高め、生成したタンパク質の信頼性と多様性を高める。
実験により, CPDiffusion-SSは, 様々な定量的測定値のオープンベンチマークにおいて, 一般的なベースライン法を上回り, 多様な, 新規なシーケンスを生成する上で, 提案手法の有意な優位性を示す。
さらに,提案手法による世代業績の生物学的意義を明らかにするために,一連のケーススタディを提案する。
ソースコードはhttps://github.com/riacd/CPDiffusion-SSで公開されている。
関連論文リスト
- SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - Structure Language Models for Protein Conformation Generation [66.42864253026053]
伝統的な物理学に基づくシミュレーション手法は、しばしばサンプリング平衡整合に苦しむ。
深い生成モデルは、より効率的な代替としてタンパク質のコンホメーションを生成することを約束している。
本稿では,効率的なタンパク質コンホメーション生成のための新しいフレームワークとして構造言語モデリングを紹介する。
論文 参考訳(メタデータ) (2024-10-24T03:38:51Z) - Context-Guided Diffusion for Out-of-Distribution Molecular and Protein Design [30.241533997522236]
我々は、ラベルのないデータと滑らかな制約を利用して、ガイド付き拡散モデルのアウト・オブ・ディストリビューション一般化を改善するシンプルなプラグ・アンド・プレイ法である文脈誘導拡散法(CGD)を開発した。
このアプローチは、連続的、離散的、グラフ構造化された拡散プロセスや、薬物発見、材料科学、タンパク質設計にまたがる応用など、様々な状況において、大幅なパフォーマンス向上をもたらす。
論文 参考訳(メタデータ) (2024-07-16T17:34:00Z) - NovoBench: Benchmarking Deep Learning-based De Novo Peptide Sequencing Methods in Proteomics [58.03989832372747]
Emphde novoペプチドシークエンシングのための初となるNovoBenchベンチマークを報告する。
多様な質量スペクトルデータ、統合モデル、総合的な評価指標から構成される。
DeepNovo、PointNovo、Casanovo、InstaNovo、AdaNovo、$pi$-HelixNovoといった最近の手法が私たちのフレームワークに統合されています。
論文 参考訳(メタデータ) (2024-06-16T08:23:21Z) - Protein Conformation Generation via Force-Guided SE(3) Diffusion Models [48.48934625235448]
新しいタンパク質コンホメーションを生成するために、深層生成モデリング技術が用いられている。
本稿では,タンパク質コンフォメーション生成のための力誘導SE(3)拡散モデルConfDiffを提案する。
論文 参考訳(メタデータ) (2024-03-21T02:44:08Z) - Diffusion on language model encodings for protein sequence generation [0.5182791771937247]
本稿では,タンパク質言語モデル表現で動作する潜在拡散フレームワークであるDiMAを提案する。
私たちのフレームワークは、新しい、高品質で多様なタンパク質配列を一貫して生成します。
これは、タンパク質ファミリーの生成、モチーフの足場と埋め込み、折りたたみ特異的な配列設計を含む条件付き生成タスクをサポートする。
論文 参考訳(メタデータ) (2024-03-06T14:15:20Z) - Protein Design with Guided Discrete Diffusion [67.06148688398677]
タンパク質設計における一般的なアプローチは、生成モデルと条件付きサンプリングのための識別モデルを組み合わせることである。
離散拡散モデルのためのガイダンス手法であるdiffusioN Optimized Smpling (NOS)を提案する。
NOSは、構造に基づく手法の重要な制限を回避し、シーケンス空間で直接設計を行うことができる。
論文 参考訳(メタデータ) (2023-05-31T16:31:24Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。