論文の概要: GPCR-BERT: Interpreting Sequential Design of G Protein Coupled Receptors
Using Protein Language Models
- arxiv url: http://arxiv.org/abs/2310.19915v1
- Date: Mon, 30 Oct 2023 18:28:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 18:01:56.375726
- Title: GPCR-BERT: Interpreting Sequential Design of G Protein Coupled Receptors
Using Protein Language Models
- Title(参考訳): GPCR-BERT:タンパク質言語モデルを用いたGタンパク質結合受容体のシーケンス設計の解釈
- Authors: Seongwon Kim, Parisa Mollaei, Akshay Antony, Rishikesh Magar, Amir
Barati Farimani
- Abstract要約: 我々はGPCR結合受容体(GPCR)のシーケンシャル設計を理解するためのGPCR-BERTモデルを開発した。
GPCRはFDAが承認した医薬品の3分の1以上を標的としている。
我々は、結合ポケットの残基と保存モチーフのいくつかの関係について光を当てることができた。
- 参考スコア(独自算出の注目度): 5.812284760539713
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the rise of Transformers and Large Language Models (LLMs) in Chemistry
and Biology, new avenues for the design and understanding of therapeutics have
opened up to the scientific community. Protein sequences can be modeled as
language and can take advantage of recent advances in LLMs, specifically with
the abundance of our access to the protein sequence datasets. In this paper, we
developed the GPCR-BERT model for understanding the sequential design of G
Protein-Coupled Receptors (GPCRs). GPCRs are the target of over one-third of
FDA-approved pharmaceuticals. However, there is a lack of comprehensive
understanding regarding the relationship between amino acid sequence, ligand
selectivity, and conformational motifs (such as NPxxY, CWxP, E/DRY). By
utilizing the pre-trained protein model (Prot-Bert) and fine-tuning with
prediction tasks of variations in the motifs, we were able to shed light on
several relationships between residues in the binding pocket and some of the
conserved motifs. To achieve this, we took advantage of attention weights, and
hidden states of the model that are interpreted to extract the extent of
contributions of amino acids in dictating the type of masked ones. The
fine-tuned models demonstrated high accuracy in predicting hidden residues
within the motifs. In addition, the analysis of embedding was performed over 3D
structures to elucidate the higher-order interactions within the conformations
of the receptors.
- Abstract(参考訳): 化学・生物学におけるトランスフォーマーと大規模言語モデル(LLM)の台頭に伴い、治療の設計と理解のための新たな道が科学界に開かれた。
タンパク質配列は言語としてモデル化することができ、特にタンパク質配列データセットへのアクセスが豊富であるLLMの最近の進歩を利用することができる。
本稿では,GPCR(G Protein-Coupled Receptors)のシーケンシャルデザインを理解するためのGPCR-BERTモデルを開発した。
gpcrはfda承認薬の3分の1以上がターゲットである。
しかし、アミノ酸配列、リガンド選択性、コンフォメーションモチーフ(NPxxY、CWxP、E/DRYなど)の関係に関する包括的な理解が欠如している。
予め訓練したタンパク質モデル(Prot-Bert)を用いて,モチーフの変動の予測タスクを微調整することで,結合ポケットの残基と保存モチーフのいくつかの関連性を明らかにすることができた。
これを実現するために,我々は,マスキングのタイプを決定する際に,アミノ酸の寄与度を抽出するために解釈されるモデルの注意重みと隠れ状態を利用した。
微調整されたモデルはモチーフ内の隠れた残差の予測において高い精度を示した。
さらに,3次元構造上に埋め込み解析を行い,受容体のコンフォメーション内での高次相互作用を解明した。
関連論文リスト
- SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - CoPRA: Bridging Cross-domain Pretrained Sequence Models with Complex Structures for Protein-RNA Binding Affinity Prediction [23.1499716310298]
我々は,タンパク質-RNA結合親和性データセットPRA310を構築し,性能評価を行った。
我々は,(1)タンパク質-RNA結合親和性,(2)変異による結合親和性の変化を正確に予測できること,(3)データのスケーリングとモデルサイズによるメリットを広く分析し,検証する。
論文 参考訳(メタデータ) (2024-08-21T09:48:22Z) - Protein binding affinity prediction under multiple substitutions applying eGNNs on Residue and Atomic graphs combined with Language model information: eGRAL [1.840390797252648]
ディープラーニングは、シリコン内予測と生体内観測のギャップを埋めることのできる強力なツールとして、ますます認識されている。
タンパク質複合体中のアミノ酸置換物からの結合親和性変化を予測するための新しいグラフニューラルネットワークアーキテクチャであるeGRALを提案する。
eGralは、タンパク質の大規模言語モデルから抽出された特徴のおかげで、残基、原子スケール、進化スケールを利用する。
論文 参考訳(メタデータ) (2024-05-03T10:33:19Z) - ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。
PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。
PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T05:32:42Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - A Hierarchical Training Paradigm for Antibody Structure-sequence
Co-design [54.30457372514873]
抗体配列構造共設計のための階層的訓練パラダイム(HTP)を提案する。
HTPは4段階の訓練段階から構成され、それぞれが特定のタンパク質のモダリティに対応する。
実証実験により、HTPは共同設計問題において新しい最先端性能を設定できることが示されている。
論文 参考訳(メタデータ) (2023-10-30T02:39:15Z) - Functional Geometry Guided Protein Sequence and Backbone Structure
Co-Design [12.585697288315846]
本稿では,自動検出機能部位に基づくタンパク質配列と構造を共同設計するモデルを提案する。
NAEProは、全シーケンスでグローバルな相関を捉えることができる、注目層と同変層のインターリービングネットワークによって駆動される。
実験結果から,本モデルは全競技種の中で,最高アミノ酸回収率,TMスコア,最低RMSDを実現していることがわかった。
論文 参考訳(メタデータ) (2023-10-06T16:08:41Z) - Unsupervised ensemble-based phenotyping helps enhance the
discoverability of genes related to heart morphology [57.25098075813054]
我々はUn Phenotype Ensemblesという名の遺伝子発見のための新しいフレームワークを提案する。
教師なしの方法で学習された表現型のセットをプールすることで、冗長だが非常に表現性の高い表現を構築する。
これらの表現型は、(GWAS)を介して分析され、高い自信と安定した関連のみを保持する。
論文 参考訳(メタデータ) (2023-01-07T18:36:44Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - Protein 3D structure-based neural networks highly improve the accuracy
in compound-protein binding affinity prediction [7.059949221160259]
我々は,タンパク質3D構造情報の複合タンパク質結合親和性(CPAs)予測への応用を容易にするために,高速進化的注意と粗いグラフニューラルネットワーク(FeatNN)を開発した。
FeatNNはCPA予測において様々な最先端のベースラインをかなり上回り、ピアソン値は約35.7%上昇した。
論文 参考訳(メタデータ) (2022-03-30T00:44:15Z) - Interpretable Structured Learning with Sparse Gated Sequence Encoder for
Protein-Protein Interaction Prediction [2.9488233765621295]
アミノ酸配列から情報表現を学習することでタンパク質-タンパク質相互作用(PPI)を予測することは、生物学において難しいが重要な問題である。
我々は、シーケンスのみからPPIをモデル化し、予測するための新しいディープフレームワークを提案する。
本モデルでは,シーケンスからコンテキスト化およびシーケンシャル情報を活用することによってシーケンス表現を学習するための双方向ゲート再帰ユニットを組み込んだ。
論文 参考訳(メタデータ) (2020-10-16T17:13:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。