論文の概要: FoldToken2: Learning compact, invariant and generative protein structure language
- arxiv url: http://arxiv.org/abs/2407.00050v1
- Date: Tue, 11 Jun 2024 09:24:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-07-07 13:43:41.759994
- Title: FoldToken2: Learning compact, invariant and generative protein structure language
- Title(参考訳): FoldToken2: コンパクトで不変で生成的タンパク質構造言語を学ぶ
- Authors: Zhangyang Gao, Cheng Tan, Stan Z. Li,
- Abstract要約: 我々はFoldToken2を提案し、元の構造の復元性を維持しつつ、同変構造を離散トークンに変換する。
タンパク質構造再構築タスクにおいてFoldToken2を評価し,従来のFoldToken1よりもTMScoreで20%,RMSDで81%優れていた。
我々はFoldToken2が、タンパク質構造表現学習、構造アライメント、構造生成タスクのさらなる改善をもたらすと考えている。
- 参考スコア(独自算出の注目度): 48.1647245005672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The equivalent nature of 3D coordinates has posed long term challenges in protein structure representation learning, alignment, and generation. Can we create a compact and invariant language that equivalently represents protein structures? Towards this goal, we propose FoldToken2 to transfer equivariant structures into discrete tokens, while maintaining the recoverability of the original structures. From FoldToken1 to FoldToken2, we improve three key components: (1) invariant structure encoder, (2) vector-quantized compressor, and (3) equivalent structure decoder. We evaluate FoldToken2 on the protein structure reconstruction task and show that it outperforms previous FoldToken1 by 20\% in TMScore and 81\% in RMSD. FoldToken2 probably be the first method that works well on both single-chain and multi-chain protein structures quantization. We believe that FoldToken2 will inspire further improvement in protein structure representation learning, structure alignment, and structure generation tasks.
- Abstract(参考訳): 3D座標の等価性は、タンパク質構造表現学習、アライメント、生成において長期にわたる課題を提起している。
タンパク質構造を等価に表現するコンパクトで不変な言語を作成できるだろうか?
この目的に向けて、FoldToken2を提案し、元の構造の復元性を維持しながら、同変構造を離散トークンに転送する。
FoldToken1からFoldToken2へ、(1)不変構造エンコーダ、(2)ベクトル量子化圧縮機、(3)等価構造デコーダの3つのキーコンポーネントを改善した。
タンパク質構造再構築タスクにおいてFoldToken2を評価したところ,従来のFoldToken1はTMScoreで20倍,RMSDで81倍であった。
FoldToken2はおそらく、単一鎖と多鎖タンパク質の量子化の両方でうまく機能する最初の方法である。
我々はFoldToken2が、タンパク質構造表現学習、構造アライメント、構造生成タスクのさらなる改善をもたらすと考えている。
関連論文リスト
- Protein Structure Tokenization: Benchmarking and New Recipe [16.842453216446987]
我々はStructTokenBenchを紹介した。StructTokenBenchは、構造トークンの質と効率を包括的に評価するフレームワークである。
また、コードブック更新を強化し、コードブックのサイズと寸法を最適にバランスさせ、トークン化ツールの利用と品質を改善する戦略であるAminoAseedを開発します。
論文 参考訳(メタデータ) (2025-02-28T15:14:33Z) - A Protein Structure Prediction Approach Leveraging Transformer and CNN
Integration [4.909112037834705]
本稿では、畳み込みニューラルネットワーク(CCN)を用いた2次元融合深層ニューラルネットワークモデルDstruCCNと、単一配列タンパク質構造予測のための教師付きトランスフォーマー言語モデルを採用する。
両者のトレーニング特徴を組み合わせ、タンパク質トランスフォーマー結合部位マトリックスを予測し、エネルギー最小化を用いて三次元構造を再構築する。
論文 参考訳(メタデータ) (2024-02-29T12:24:20Z) - FoldToken: Learning Protein Language via Vector Quantization and Beyond [56.19308144551836]
タンパク質配列構造を離散シンボルとして表現するために textbfFoldTokenizer を導入する。
学習したシンボルを textbfFoldToken と呼び、FoldToken の配列が新しいタンパク質言語として機能する。
論文 参考訳(メタデータ) (2024-02-04T12:18:51Z) - Promptly Predicting Structures: The Return of Inference [31.442123334313035]
ゼロショットと少数ショットの言語構造予測器を構築するためのフレームワークを提案する。
その結果, 整合性の維持は構造的に有効であるだけでなく, 性能も向上することがわかった。
論文 参考訳(メタデータ) (2024-01-12T20:08:39Z) - StructRe: Rewriting for Structured Shape Modeling [63.792684115318906]
本稿では,構造化形状モデリングの新しいアプローチとして,構造書換えシステムであるStructReを提案する。
ポイントとコンポーネントで表される3Dオブジェクトが与えられたら、StructReはそれを上向きに、より簡潔な構造に書き直すか、より詳細な構造に書き直すことができる。
論文 参考訳(メタデータ) (2023-11-29T10:35:00Z) - FFF: Fragments-Guided Flexible Fitting for Building Complete Protein
Structures [10.682516227941592]
タンパク質構造予測とタンパク質構造認識を柔軟に組み合わせた新しいFFF法を提案する。
まず、入力された3次元Cryo-EMマップから様々な構造的特徴を捉えるために、マルチレベル認識ネットワークを使用する。
次に、これらの特徴に基づいて擬似ペプチドベクターとタンパク質配列アライメント法を用いてタンパク質構造断片を生成する。
論文 参考訳(メタデータ) (2023-08-07T15:10:21Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - Fold2Seq: A Joint Sequence(1D)-Fold(3D) Embedding-based Generative Model
for Protein Design [70.27706384570723]
Fold2Seqは特定の標的に条件付きタンパク質配列を設計するための新しいフレームワークである。
Fold2Seqの性能は, シーケンス設計の速度, カバレッジ, 信頼性において向上したか, 同等であったかを示す。
フォールドベースのFold2Seqの独特な利点は、構造ベースのディープモデルやRosettaDesignと比較して、3つの現実世界の課題においてより明確になる。
論文 参考訳(メタデータ) (2021-06-24T14:34:24Z) - BERTology Meets Biology: Interpreting Attention in Protein Language
Models [124.8966298974842]
注目レンズを用いたタンパク質トランスフォーマーモデルの解析方法を示す。
注意はタンパク質の折りたたみ構造を捉え、基礎となる配列では遠く離れているが、三次元構造では空間的に近接しているアミノ酸を接続する。
また、注意とタンパク質構造との相互作用を三次元的に可視化する。
論文 参考訳(メタデータ) (2020-06-26T21:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。