論文の概要: Ankh: Optimized Protein Language Model Unlocks General-Purpose Modelling
- arxiv url: http://arxiv.org/abs/2301.06568v1
- Date: Mon, 16 Jan 2023 19:04:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 15:32:34.339600
- Title: Ankh: Optimized Protein Language Model Unlocks General-Purpose Modelling
- Title(参考訳): Ankh:最適化されたタンパク質言語モデルが汎用モデリングをアンロック
- Authors: Ahmed Elnaggar, Hazem Essam, Wafaa Salah-Eldin, Walid Moustafa,
Mohamed Elkerdawy, Charlotte Rochereau, and Burkhard Rost
- Abstract要約: GoogleのTPU-v4でトレーニングされた最初の汎用タンパク言語モデルであるAnkhを紹介します。
アンクは、タンパク質の進化保存変異の傾向を学習し、重要な構造-機能的特性を維持しながら機能的多様性を導入することに成功している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As opposed to scaling-up protein language models (PLMs), we seek improving
performance via protein-specific optimization. Although the proportionality
between the language model size and the richness of its learned representations
is validated, we prioritize accessibility and pursue a path of data-efficient,
cost-reduced, and knowledge-guided optimization. Through over twenty
experiments ranging from masking, architecture, and pre-training data, we
derive insights from protein-specific experimentation into building a model
that interprets the language of life, optimally. We present Ankh, the first
general-purpose PLM trained on Google's TPU-v4 surpassing the state-of-the-art
performance with fewer parameters (<10% for pre-training, <7% for inference,
and <30% for the embedding dimension). We provide a representative range of
structure and function benchmarks where Ankh excels. We further provide a
protein variant generation analysis on High-N and One-N input data scales where
Ankh succeeds in learning protein evolutionary conservation-mutation trends and
introducing functional diversity while retaining key structural-functional
characteristics. We dedicate our work to promoting accessibility to research
innovation via attainable resources.
- Abstract(参考訳): タンパク質言語モデル(PLM)のスケールアップとは対照的に,タンパク質特異的最適化による性能向上を目指す。
言語モデルのサイズと学習表現の豊かさの比例性は検証されるが、我々はアクセシビリティを優先し、データ効率、コスト削減、知識誘導最適化の道を追求する。
マスキング,アーキテクチャ,事前学習など20以上の実験を通じて,タンパク質特異的な実験から生命の言語を最適に解釈するモデルの構築へと洞察を導き出す。
我々は,googleのtpu-v4でトレーニングされた最初の汎用plmであるankhを提案する。
我々は、ankhが優れた構造と機能ベンチマークの代表的な範囲を提供する。
さらに, タンパク質の進化的保存・変異傾向の学習に成功し, 重要な構造的機能的特性を維持しつつ, 機能的多様性を導入した高Nおよび1-N入力データスケールのタンパク質変異生成解析を行った。
我々は,達成可能な資源による研究イノベーションへのアクセシビリティ向上に力を注いでいる。
関連論文リスト
- Training Compute-Optimal Protein Language Models [48.79416103951816]
ほとんどのタンパク質言語モデルは、パフォーマンスが高くなるまで広範囲の計算資源で訓練されている。
調査は、9億3900万のタンパク質配列からなる膨大なデータセットに基づいて行われた。
私たちは、350万から107億のパラメータから5から200億のユニークなトークンまで、300以上のモデルをトレーニングしました。
論文 参考訳(メタデータ) (2024-11-04T14:58:37Z) - Training on test proteins improves fitness, structure, and function prediction [18.176929152066872]
大規模データセット上での自己教師付き事前トレーニングは、一般化を強化するための一般的な方法である。
そこで本研究では,テスト時に自己教師型微調整を行う手法を導入し,モデルがハエの関心を持つテストタンパク質に適応できるようにした。
本手法は,タンパク質の適合度予測のための標準ベンチマークにおいて,新しい最先端結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-11-04T14:23:59Z) - Endowing Protein Language Models with Structural Knowledge [5.587293092389789]
本稿では,タンパク質構造データを統合することにより,タンパク質言語モデルを強化する新しいフレームワークを提案する。
PST(Protein Structure Transformer)と呼ばれる精製モデルは、小さなタンパク質構造データベース上でさらに事前訓練されている。
PSTは、タンパク質配列の最先端基盤モデルであるESM-2を一貫して上回り、タンパク質機能予測の新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-01-26T12:47:54Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Functional Graphical Models: Structure Enables Offline Data-Driven Optimization [111.28605744661638]
構造がサンプル効率のよいデータ駆動最適化を実現する方法を示す。
また、FGM構造自体を推定するデータ駆動最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-08T22:33:14Z) - Target-aware Variational Auto-encoders for Ligand Generation with
Multimodal Protein Representation Learning [2.01243755755303]
ターゲット認識型自動エンコーダであるTargetVAEを導入し、任意のタンパク質標的に対する高い結合親和性で生成する。
これは、タンパク質の異なる表現を単一のモデルに統一する最初の試みであり、これは我々がタンパク質マルチモーダルネットワーク(PMN)と呼ぶ。
論文 参考訳(メタデータ) (2023-08-02T12:08:17Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - Evaluating natural language processing models with generalization
metrics that do not need access to any training or testing data [66.11139091362078]
本稿では,Hugingface から事前学習した大規模トランスフォーマーに対して,一般化指標を用いた最初のモデル選択結果を提案する。
ニッチな状況にもかかわらず、ヘビーテール(HT)の観点から派生したメトリクスは、特にNLPタスクにおいて有用である。
論文 参考訳(メタデータ) (2022-02-06T20:07:35Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z) - PersGNN: Applying Topological Data Analysis and Geometric Deep Learning
to Structure-Based Protein Function Prediction [0.07340017786387766]
本研究では,タンパク質構造を分離し,タンパク質データバンク内のタンパク質の機能的アノテーションを作成する。
本稿では,グラフ表現学習とトポロジカルデータ解析を組み合わせた,エンドツーエンドのトレーニング可能なディープラーニングモデルPersGNNを提案する。
論文 参考訳(メタデータ) (2020-10-30T02:24:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。