論文の概要: Pre-Training Protein Bi-level Representation Through Span Mask Strategy On 3D Protein Chains
- arxiv url: http://arxiv.org/abs/2402.01481v4
- Date: Sun, 2 Jun 2024 23:17:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 19:22:52.113035
- Title: Pre-Training Protein Bi-level Representation Through Span Mask Strategy On 3D Protein Chains
- Title(参考訳): 3次元タンパク質鎖上のスパンマスク戦略によるタンパク質の2レベル発現の事前評価
- Authors: Jiale Zhao, Wanru Zhuang, Jia Song, Yaqi Li, Shuqi Lu,
- Abstract要約: 本研究では, 3次元タンパク質鎖上でのスパンマスク事前学習戦略を導入し, 残基および原子の有意義な表現を学習する。
これにより、多様な下流タスクに適したタンパク質表現を学習するための、シンプルで効果的なアプローチが導かれる。
- 参考スコア(独自算出の注目度): 1.2893576217358405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, there has been a surge in the development of 3D structure-based pre-trained protein models, representing a significant advancement over pre-trained protein language models in various downstream tasks. However, most existing structure-based pre-trained models primarily focus on the residue level, i.e., alpha carbon atoms, while ignoring other atoms like side chain atoms. We argue that modeling proteins at both residue and atom levels is important since the side chain atoms can also be crucial for numerous downstream tasks, for example, molecular docking. Nevertheless, we find that naively combining residue and atom information during pre-training typically fails. We identify a key reason is the information leakage caused by the inclusion of atom structure in the input, which renders residue-level pre-training tasks trivial and results in insufficiently expressive residue representations. To address this issue, we introduce a span mask pre-training strategy on 3D protein chains to learn meaningful representations of both residues and atoms. This leads to a simple yet effective approach to learning protein representation suitable for diverse downstream tasks. Extensive experimental results on binding site prediction and function prediction tasks demonstrate our proposed pre-training approach significantly outperforms other methods. Our code will be made public.
- Abstract(参考訳): 近年、3次元構造に基づく事前学習タンパク質モデルの開発が急増しており、様々な下流タスクにおける事前学習タンパク質言語モデルに対する顕著な進歩を示している。
しかし、既存の構造に基づく事前訓練モデルは、主に残基レベル、すなわちアルファ炭素原子に焦点を当て、一方側鎖原子のような他の原子を無視している。
側鎖の原子は、例えば分子ドッキングのような多くの下流のタスクにも重要であるので、残基と原子レベルのタンパク質のモデリングが重要であると我々は主張する。
それにもかかわらず、予備訓練中に残基と原子情報を鼻で組み合わせることは通常失敗する。
入力に原子構造が組み込まれ、残差レベルの事前学習タスクを自明に行い、表現力に乏しい残差表現をもたらすことが主な原因である。
この問題に対処するために,3次元タンパク質鎖上でのスパンマスク事前学習戦略を導入し,残基と原子の有意義な表現を学習する。
これにより、多様な下流タスクに適したタンパク質表現を学習するための、シンプルで効果的なアプローチが導かれる。
結合サイト予測と関数予測タスクに関する大規模な実験結果から,提案手法が他の手法よりも優れていることを示す。
私たちのコードは公開されます。
関連論文リスト
- xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - EquiPocket: an E(3)-Equivariant Geometric Graph Neural Network for Ligand Binding Site Prediction [49.674494450107005]
標的タンパク質の結合部位の予測は、薬物発見の基本的な役割を担っている。
既存のディープラーニング手法の多くは、タンパク質を原子をボクセルに空間的にクラスタリングすることで3D画像とみなしている。
本研究では,結合サイト予測のためのE3-equivariant Graph Neural Network(GNN)であるEquiPocketを提案する。
論文 参考訳(メタデータ) (2023-02-23T17:18:26Z) - Data-Efficient Protein 3D Geometric Pretraining via Refinement of
Diffused Protein Structure Decoy [42.49977473599661]
有意義なタンパク質表現の学習は、構造に基づく薬物設計のような様々な生物学的下流のタスクにとって重要である。
本稿では,タンパク質事前学習のための統一的なフレームワークと,幾何学的,データ効率,およびタンパク質特異的プリテキストタスクであるRefineDiffを提案する。
論文 参考訳(メタデータ) (2023-02-05T14:13:32Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Pre-training via Denoising for Molecular Property Prediction [53.409242538744444]
本稿では,3次元分子構造の大規模データセットを平衡に利用した事前学習手法について述べる。
近年のノイズレギュラー化の進展に触発されて, 事前学習の目的は, 雑音の除去に基づくものである。
論文 参考訳(メタデータ) (2022-05-31T22:28:34Z) - Protein Structure and Sequence Generation with Equivariant Denoising
Diffusion Probabilistic Models [3.5450828190071646]
バイオエンジニアリングにおける重要な課題は、特定の3D構造と標的機能を可能にする化学的性質を持つタンパク質を設計することである。
タンパク質の構造と配列の両方の生成モデルを導入し、従来の分子生成モデルよりもはるかに大きなスケールで操作できる。
論文 参考訳(メタデータ) (2022-05-26T16:10:09Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Multi-Scale Representation Learning on Proteins [78.31410227443102]
本稿では,タンパク質HoloProtのマルチスケールグラフ構築について紹介する。
表面はタンパク質の粗い詳細を捉え、配列は一次成分であり、構造はより微細な詳細を捉えている。
グラフエンコーダは、各レベルが下のレベル(s)からそのレベルでのグラフとエンコーディングを統合することで、マルチスケール表現を学習する。
論文 参考訳(メタデータ) (2022-04-04T08:29:17Z) - Protein Representation Learning by Geometric Structure Pretraining [27.723095456631906]
既存のアプローチは通常、多くの未ラベルアミノ酸配列で事前訓練されたタンパク質言語モデルである。
まず,タンパク質の幾何学的特徴を学習するための単純かつ効果的なエンコーダを提案する。
関数予測と折り畳み分類の両タスクの実験結果から,提案した事前学習法は,より少ないデータを用いた最先端のシーケンスベース手法と同等あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2022-03-11T17:52:13Z) - Profile Prediction: An Alignment-Based Pre-Training Task for Protein
Sequence Models [11.483725773928382]
タンパク質予測に対する最近のディープラーニングアプローチは、ラベルなしデータによる事前学習が下流タスクに有用な表現をもたらすことを示している。
我々は、複数の配列アライメントから導かれるタンパク質プロファイルを直接予測する、新しい事前学習タスクを導入する。
以上の結果から, タンパク質配列モデルが生物学的に誘発される誘導バイアスの活用の恩恵を受ける可能性が示唆された。
論文 参考訳(メタデータ) (2020-12-01T01:01:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。