論文の概要: Multi-level protein pre-training with Vabs-Net
- arxiv url: http://arxiv.org/abs/2402.01481v3
- Date: Tue, 27 Feb 2024 10:25:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 21:21:08.984251
- Title: Multi-level protein pre-training with Vabs-Net
- Title(参考訳): Vabs-Netを用いた多レベルタンパク質プレトレーニング
- Authors: Jiale Zhao, Wanru Zhuang, Jia Song, Yaqi Li, Shuqi Lu
- Abstract要約: 本研究では, 3次元タンパク質鎖上でのスパンマスク事前学習戦略を導入し, 残基および原子の有意義な表現を学習する。
これにより、多様な下流タスクに適したタンパク質表現を学習するための、シンプルで効果的なアプローチが導かれる。
- 参考スコア(独自算出の注目度): 1.3832821078847202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, there has been a surge in the development of 3D
structure-based pre-trained protein models, representing a significant
advancement over pre-trained protein language models in various downstream
tasks. However, most existing structure-based pre-trained models primarily
focus on the residue level, i.e., alpha carbon atoms, while ignoring other
atoms like side chain atoms. We argue that modeling proteins at both residue
and atom levels is important since the side chain atoms can also be crucial for
numerous downstream tasks, for example, molecular docking. Nevertheless, we
find that naively combining residue and atom information during pre-training
typically fails. We identify a key reason is the information leakage caused by
the inclusion of atom structure in the input, which renders residue-level
pre-training tasks trivial and results in insufficiently expressive residue
representations. To address this issue, we introduce a span mask pre-training
strategy on 3D protein chains to learn meaningful representations of both
residues and atoms. This leads to a simple yet effective approach to learning
protein representation suitable for diverse downstream tasks. Extensive
experimental results on binding site prediction and function prediction tasks
demonstrate our proposed pre-training approach significantly outperforms other
methods. Our code will be made public.
- Abstract(参考訳): 近年、3次元構造に基づく事前学習タンパク質モデルの開発が急増しており、様々な下流タスクにおける事前学習タンパク質言語モデルに対する顕著な進歩を示している。
しかし、既存の構造に基づく事前訓練モデルは、主に残基レベル、すなわちアルファ炭素原子に焦点を当て、一方側鎖原子のような他の原子を無視している。
側鎖の原子は、例えば分子ドッキングのような多くの下流のタスクにも重要であるので、残基と原子レベルのタンパク質のモデリングが重要であると我々は主張する。
それにもかかわらず、予備訓練中に残基と原子情報を鼻で組み合わせることは通常失敗する。
そこで,本研究では,残差レベルの事前学習タスクを自明に表現し,残差表現を不十分に表現する,入力に原子構造が組み込まれて情報漏洩が発生する原因を明らかにする。
この問題に対処するために,3次元タンパク質鎖上でのスパンマスク事前学習戦略を導入し,残基と原子の有意義な表現を学習する。
これにより、さまざまな下流タスクに適したタンパク質表現を学ぶための、シンプルで効果的なアプローチがもたらされる。
バインディングサイト予測と関数予測タスクに関する広範囲な実験結果から,提案手法が他の手法を大きく上回ることを示した。
私たちのコードは公開されます。
関連論文リスト
- SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - Advanced atom-level representations for protein flexibility prediction utilizing graph neural networks [0.0]
我々は,タンパク質の原子レベルでの表現を学習し,タンパク質3D構造からB因子を予測するグラフニューラルネットワーク(GNN)を提案する。
Meta-GNNモデルは、4k以上のタンパク質の大規模かつ多様なテストセット上での相関係数0.71を達成する。
論文 参考訳(メタデータ) (2024-08-22T16:15:13Z) - Geometric Self-Supervised Pretraining on 3D Protein Structures using Subgraphs [26.727436310732692]
本稿では,3次元タンパク質構造上の3次元グラフニューラルネットワークを事前学習するための自己教師型手法を提案する。
提案手法が6%までの大幅な改善につながることを実験的に示す。
論文 参考訳(メタデータ) (2024-06-20T09:34:31Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - EquiPocket: an E(3)-Equivariant Geometric Graph Neural Network for Ligand Binding Site Prediction [49.674494450107005]
標的タンパク質の結合部位の予測は、薬物発見の基本的な役割を担っている。
既存のディープラーニング手法の多くは、タンパク質を原子をボクセルに空間的にクラスタリングすることで3D画像とみなしている。
本研究では,結合サイト予測のためのE3-equivariant Graph Neural Network(GNN)であるEquiPocketを提案する。
論文 参考訳(メタデータ) (2023-02-23T17:18:26Z) - Data-Efficient Protein 3D Geometric Pretraining via Refinement of
Diffused Protein Structure Decoy [42.49977473599661]
有意義なタンパク質表現の学習は、構造に基づく薬物設計のような様々な生物学的下流のタスクにとって重要である。
本稿では,タンパク質事前学習のための統一的なフレームワークと,幾何学的,データ効率,およびタンパク質特異的プリテキストタスクであるRefineDiffを提案する。
論文 参考訳(メタデータ) (2023-02-05T14:13:32Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Multi-Scale Representation Learning on Proteins [78.31410227443102]
本稿では,タンパク質HoloProtのマルチスケールグラフ構築について紹介する。
表面はタンパク質の粗い詳細を捉え、配列は一次成分であり、構造はより微細な詳細を捉えている。
グラフエンコーダは、各レベルが下のレベル(s)からそのレベルでのグラフとエンコーディングを統合することで、マルチスケール表現を学習する。
論文 参考訳(メタデータ) (2022-04-04T08:29:17Z) - Protein Representation Learning by Geometric Structure Pretraining [27.723095456631906]
既存のアプローチは通常、多くの未ラベルアミノ酸配列で事前訓練されたタンパク質言語モデルである。
まず,タンパク質の幾何学的特徴を学習するための単純かつ効果的なエンコーダを提案する。
関数予測と折り畳み分類の両タスクの実験結果から,提案した事前学習法は,より少ないデータを用いた最先端のシーケンスベース手法と同等あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2022-03-11T17:52:13Z) - Profile Prediction: An Alignment-Based Pre-Training Task for Protein
Sequence Models [11.483725773928382]
タンパク質予測に対する最近のディープラーニングアプローチは、ラベルなしデータによる事前学習が下流タスクに有用な表現をもたらすことを示している。
我々は、複数の配列アライメントから導かれるタンパク質プロファイルを直接予測する、新しい事前学習タスクを導入する。
以上の結果から, タンパク質配列モデルが生物学的に誘発される誘導バイアスの活用の恩恵を受ける可能性が示唆された。
論文 参考訳(メタデータ) (2020-12-01T01:01:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。