論文の概要: Fold2Seq: A Joint Sequence(1D)-Fold(3D) Embedding-based Generative Model
for Protein Design
- arxiv url: http://arxiv.org/abs/2106.13058v1
- Date: Thu, 24 Jun 2021 14:34:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-25 14:51:28.412353
- Title: Fold2Seq: A Joint Sequence(1D)-Fold(3D) Embedding-based Generative Model
for Protein Design
- Title(参考訳): Fold2Seq:タンパク質設計のための複合配列(1D)-Fold(3D)埋め込みに基づく生成モデル
- Authors: Yue Cao and Payel Das and Vijil Chenthamarakshan and Pin-Yu Chen and
Igor Melnyk and Yang Shen
- Abstract要約: Fold2Seqは特定の標的に条件付きタンパク質配列を設計するための新しいフレームワークである。
Fold2Seqの性能は, シーケンス設計の速度, カバレッジ, 信頼性において向上したか, 同等であったかを示す。
フォールドベースのFold2Seqの独特な利点は、構造ベースのディープモデルやRosettaDesignと比較して、3つの現実世界の課題においてより明確になる。
- 参考スコア(独自算出の注目度): 70.27706384570723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing novel protein sequences for a desired 3D topological fold is a
fundamental yet non-trivial task in protein engineering. Challenges exist due
to the complex sequence--fold relationship, as well as the difficulties to
capture the diversity of the sequences (therefore structures and functions)
within a fold. To overcome these challenges, we propose Fold2Seq, a novel
transformer-based generative framework for designing protein sequences
conditioned on a specific target fold. To model the complex sequence--structure
relationship, Fold2Seq jointly learns a sequence embedding using a transformer
and a fold embedding from the density of secondary structural elements in 3D
voxels. On test sets with single, high-resolution and complete structure inputs
for individual folds, our experiments demonstrate improved or comparable
performance of Fold2Seq in terms of speed, coverage, and reliability for
sequence design, when compared to existing state-of-the-art methods that
include data-driven deep generative models and physics-based RosettaDesign. The
unique advantages of fold-based Fold2Seq, in comparison to a structure-based
deep model and RosettaDesign, become more evident on three additional
real-world challenges originating from low-quality, incomplete, or ambiguous
input structures. Source code and data are available at
https://github.com/IBM/fold2seq.
- Abstract(参考訳): 所望の3Dトポロジカルフォールドのための新規なタンパク質配列を設計することは、タンパク質工学の基本的な作業である。
問題となるのは、複雑なシーケンス-フォールドの関係と、折りたたみ内のシーケンス(その構造と関数)の多様性を捉えるのが困難であることである。
このような課題を克服するため,我々は,特定の標的フォールドに条件付けられたタンパク質配列を設計するためのトランスフォーマティブベースの生成フレームワークfold2seqを提案する。
複雑なシーケンス-構造関係をモデル化するために、fold2seqは3dボクセル内の二次構造要素の密度からトランスフォーマーとフォールドを用いたシーケンス埋め込みを共同で学習する。
データ駆動の深部生成モデルや物理ベースのRosettaDesignを含む既存の最先端手法と比較して,Fold2Seqの高速,カバレッジ,信頼性の観点から,単一,高分解能,かつ完全な構造入力を持つテストセットについて,Fold2Seqの性能および同等の性能を実証した。
fold-based fold2seqのユニークな利点は、構造ベースの深層モデルやrosettadesignと比較して、低品質、不完全、曖昧な入力構造に由来する3つの実世界の課題においてより顕著になる。
ソースコードとデータはhttps://github.com/ibm/fold2seqで入手できる。
関連論文リスト
- HKNAS: Classification of Hyperspectral Imagery Based on Hyper Kernel
Neural Architecture Search [104.45426861115972]
設計したハイパーカーネルを利用して,構造パラメータを直接生成することを提案する。
我々は1次元または3次元の畳み込みを伴う画素レベルの分類と画像レベルの分類を別々に行う3種類のネットワークを得る。
6つの公開データセットに関する一連の実験は、提案手法が最先端の結果を得ることを示した。
論文 参考訳(メタデータ) (2023-04-23T17:27:40Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Protein Sequence and Structure Co-Design with Equivariant Translation [19.816174223173494]
既存のアプローチは自己回帰モデルまたは拡散モデルを用いてタンパク質配列と構造の両方を生成する。
本稿では,タンパク質配列と構造共設計が可能な新しいアプローチを提案する。
我々のモデルは、幾何学的制約と文脈特徴からの相互作用を推論する三角法を意識したエンコーダで構成されている。
全てのタンパク質アミノ酸は翻訳工程で1ショットずつ更新され、推論プロセスが大幅に加速される。
論文 参考訳(メタデータ) (2022-10-17T06:00:12Z) - Learned Indexing in Proteins: Substituting Complex Distance Calculations
with Embedding and Clustering Techniques [2.239917051803691]
著者らは3次元タンパク質構造探索の複雑な問題に対する軽量な解法を提案する。
この解は、(i)3次元タンパク質の構造情報の非常にコンパクトなベクトルへの変換、(ii)これらのベクトルをグループ化し、類似したオブジェクトの所定の個数を返すことでクエリに応答する確率モデルの使用、(iii)基本ベクトル距離関数を適用して結果を洗練する最終的なフィルタリングステップからなる。
論文 参考訳(メタデータ) (2022-08-18T15:22:42Z) - Set Interdependence Transformer: Set-to-Sequence Neural Networks for
Permutation Learning and Structure Prediction [6.396288020763144]
セット・ツー・シーケンス問題は自然言語処理、コンピュータビジョン、構造予測において発生する。
それまでの注意に基づく手法では、n$-次関係を明示的に表すために、セット変換の$n$層を必要とする。
本稿では,集合の置換不変表現を任意の濃度の集合内のその要素に関連付けることのできる,集合間距離変換器と呼ばれる新しいニューラルセット符号化法を提案する。
論文 参考訳(メタデータ) (2022-06-08T07:46:49Z) - Deep Non-rigid Structure-from-Motion: A Sequence-to-Sequence Translation
Perspective [95.26840571484443]
本稿では,シーケンス・ツー・シーケンス翻訳の観点から,ディープNASfMをモデル化する。
まず,1つのフレームから初期非剛体形状とカメラの動きを推定するために,形状運動予測器を適用した。
そこで我々は,カメラの動きと複雑な非剛体形状をモデル化するためのコンテキストモデリングモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-10T17:13:52Z) - Benchmarking deep generative models for diverse antibody sequence design [18.515971640245997]
シーケンスのみから、あるいはシーケンスと構造を共同で学習する深層生成モデルは、このタスクにおいて印象的なパフォーマンスを示している。
最近提案されたタンパク質設計のための3つの深い生成フレームワークについて考察する: (AR) 配列ベースの自己回帰生成モデル、(GVP) 正確な構造ベースのグラフニューラルネットワーク、そして3次元折り畳みのファジィでスケールフリーな表現を利用するFold2Seq。
我々は,これらのモデルを,機能的含意に高い多様性を持つ設計配列を必要とする抗体配列の計算設計のタスクに基づいてベンチマークする。
論文 参考訳(メタデータ) (2021-11-12T16:23:32Z) - Structured Reordering for Modeling Latent Alignments in Sequence
Transduction [86.94309120789396]
本稿では,分離可能な置換の辺りを正確に推定する効率的な動的プログラミングアルゴリズムを提案する。
結果のSeq2seqモデルは、合成問題やNLPタスクの標準モデルよりも体系的な一般化が優れている。
論文 参考訳(メタデータ) (2021-06-06T21:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。