Fugu-MT 論文翻訳(概要): Tranception: protein fitness prediction with autoregressive transformers and inference-time retrieval

論文の概要: Tranception: protein fitness prediction with autoregressive transformers and inference-time retrieval

arxiv url: http://arxiv.org/abs/2205.13760v1
Date: Fri, 27 May 2022 04:51:15 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-31 05:37:07.110672
Title: Tranception: protein fitness prediction with autoregressive transformers and inference-time retrieval
Title（参考訳）: 自己回帰トランスフォーマーと推論時間検索によるタンパク質適合性予測
Authors: Pascal Notin, Mafalda Dias, Jonathan Frazer, Javier Marchena-Hurtado, Aidan Gomez, Debora S. Marks, Yarin Gal
Abstract要約: タンパク質配列のフィットネスランドスケープを正確にモデル化する能力は、幅広い応用に不可欠である。複数の配列アライメントに基づいて訓練されたタンパク質配列の深い生成モデルが、これらの課題に対処するための最も成功したアプローチである。多様なファミリーから大量の非整合タンパク質配列を訓練した大規模な言語モデルは、これらの問題に対処する。
参考スコア（独自算出の注目度）: 23.49976148784686
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The ability to accurately model the fitness landscape of protein sequences is critical to a wide range of applications, from quantifying the effects of human variants on disease likelihood, to predicting immune-escape mutations in viruses and designing novel biotherapeutic proteins. Deep generative models of protein sequences trained on multiple sequence alignments have been the most successful approaches so far to address these tasks. The performance of these methods is however contingent on the availability of sufficiently deep and diverse alignments for reliable training. Their potential scope is thus limited by the fact many protein families are hard, if not impossible, to align. Large language models trained on massive quantities of non-aligned protein sequences from diverse families address these problems and show potential to eventually bridge the performance gap. We introduce Tranception, a novel transformer architecture leveraging autoregressive predictions and retrieval of homologous sequences at inference to achieve state-of-the-art fitness prediction performance. Given its markedly higher performance on multiple mutants, robustness to shallow alignments and ability to score indels, our approach offers significant gain of scope over existing approaches. To enable more rigorous model testing across a broader range of protein families, we develop ProteinGym -- an extensive set of multiplexed assays of variant effects, substantially increasing both the number and diversity of assays compared to existing benchmarks.
Abstract（参考訳）: タンパク質配列の適合環境を正確にモデル化する能力は、ヒト変異株の病原性への影響の定量化から、ウイルスの免疫エスケープ変異の予測、新しい生物療法タンパク質の設計まで、幅広い応用に不可欠である。複数の配列アライメントで訓練されたタンパク質配列の深層生成モデルは、これらの課題に対処するための最も成功したアプローチである。これらの手法の性能は、信頼性の高いトレーニングのために十分に深く多様なアライメントが利用可能であることに起因している。したがって、その潜在的な範囲は、多くのタンパク質ファミリーが整列することが困難であるという事実によって制限される。多様なファミリーから大量の非整合タンパク質配列を訓練した大規模な言語モデルは、これらの問題に対処し、最終的にはパフォーマンスギャップを橋渡しする可能性を示す。本稿では,自己回帰予測と推論における相同配列の検索を応用した,新しいトランスフォーマティブアーキテクチャであるtransceptionを導入する。複数の変異体に対する顕著なパフォーマンス向上、浅いアライメントに対するロバスト性、インデルのスコアリング能力などを考えると、我々のアプローチは既存のアプローチよりもかなりの範囲を確保できる。より広い範囲のタンパク質ファミリーでより厳密なモデルテストを可能にするため、変異効果の多重化アッセイの広範なセットであるProteinGymを開発し、既存のベンチマークと比較すると、アッセイの数と多様性の両方を著しく増加させる。

関連論文リスト

ProteinZero: Self-Improving Protein Generation via Online Reinforcement Learning [49.2607661375311]
本稿では,逆折り畳みモデルの計算的拡張性,自動化,継続的な自己改善を可能にする新しいフレームワークであるProteinZeroを提案する。 ProteinZeroは、タンパク質設計のすべての主要な指標において、既存の手法を大幅に上回っている。特に、CATH-4.3上で実行されるRL全体は、報酬を含む3日以内に1つの8X GPUノードで実行できる。
論文参考訳（メタデータ） (2025-06-09T06:08:59Z)
SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文参考訳（メタデータ） (2024-10-31T15:22:03Z)
Learning to Predict Mutation Effects of Protein-Protein Interactions by Microenvironment-aware Hierarchical Prompt Learning [78.38442423223832]
我々は、新しいコードブック事前学習タスク、すなわちマスク付きマイクロ環境モデリングを開発する。突然変異効果予測において、最先端の事前学習法よりも優れた性能と訓練効率を示す。
論文参考訳（メタデータ） (2024-05-16T03:53:21Z)
Protein Conformation Generation via Force-Guided SE(3) Diffusion Models [48.48934625235448]
新しいタンパク質コンホメーションを生成するために、深層生成モデリング技術が用いられている。本稿では,タンパク質コンフォメーション生成のための力誘導SE(3)拡散モデルConfDiffを提案する。
論文参考訳（メタデータ） (2024-03-21T02:44:08Z)
Diffusion on language model embeddings for protein sequence generation [0.5442686600296733]
連続拡散を利用したアミノ酸配列生成モデルであるDiMAを導入する。優れたパフォーマンスをもたらす設計選択の影響を定量的に説明します。我々のアプローチは、タンパク質空間の構造的および機能的多様性を正確に反映する、新規で多様なタンパク質配列を一貫して生成する。
論文参考訳（メタデータ） (2024-03-06T14:15:20Z)
xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。 xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文参考訳（メタデータ） (2024-01-11T15:03:17Z)
Efficiently Predicting Protein Stability Changes Upon Single-point Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文参考訳（メタデータ） (2023-12-07T03:25:49Z)
Multi-level Protein Representation Learning for Blind Mutational Effect Prediction [5.207307163958806]
本稿では,タンパク質構造解析のためのシーケンシャルおよび幾何学的アナライザをカスケードする,新しい事前学習フレームワークを提案する。野生型タンパク質の自然選択をシミュレートすることにより、所望の形質に対する突然変異方向を誘導する。提案手法は,多種多様な効果予測タスクに対して,パブリックデータベースと2つの新しいデータベースを用いて評価する。
論文参考訳（メタデータ） (2023-06-08T03:00:50Z)
Accurate and Definite Mutational Effect Prediction with Lightweight Equivariant Graph Neural Networks [2.381587712372268]
本研究では,野生型タンパク質の微小環境を効率的に解析する軽量なグラフ表現学習手法を提案する。私たちのソリューションは、コミュニティにとって理想的な選択肢となる、幅広いメリットを提供します。
論文参考訳（メタデータ） (2023-04-13T09:51:49Z)
Plug & Play Directed Evolution of Proteins with Gradient-based Discrete MCMC [1.0499611180329804]
機械学習ベースのタンパク質工学の長年の目標は、新しい突然変異の発見を加速することである。本稿では,シリコにおけるタンパク質の進化のためのサンプリングフレームワークについて紹介する。これらのモデルを構成することで、未知の突然変異を評価し、機能的タンパク質を含む可能性のある配列空間の領域を探索する能力を向上させることを目指している。
論文参考訳（メタデータ） (2022-12-20T00:26:23Z)
Few Shot Protein Generation [4.7210697296108926]
マルチシークエンスアライメント(MSA)で表されるタンパク質ファミリーに条件付けられたタンパク質配列の生成モデルであるMSA-to-タンパク質トランスフォーマーについて述べる。タンパク質ファミリーの生成モデルを学習するための既存のアプローチとは異なり、MSA-to-タンパク質トランスフォーマー条件は、多重配列アライメントの学習エンコーディングを直接生成する。我々の生成的アプローチは、エピスタシスとインデルを正確にモデル化し、他のアプローチとは異なり、正確な推論と効率的なサンプリングを可能にします。
論文参考訳（メタデータ） (2022-04-03T22:14:02Z)
EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。 EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文参考訳（メタデータ） (2021-05-11T03:40:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。