論文の概要: BERTology Meets Biology: Interpreting Attention in Protein Language
Models
- arxiv url: http://arxiv.org/abs/2006.15222v3
- Date: Sun, 28 Mar 2021 21:56:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 21:20:58.772622
- Title: BERTology Meets Biology: Interpreting Attention in Protein Language
Models
- Title(参考訳): bertology meets biology: タンパク質言語モデルにおける注意の解釈
- Authors: Jesse Vig, Ali Madani, Lav R. Varshney, Caiming Xiong, Richard Socher,
Nazneen Fatema Rajani
- Abstract要約: 注目レンズを用いたタンパク質トランスフォーマーモデルの解析方法を示す。
注意はタンパク質の折りたたみ構造を捉え、基礎となる配列では遠く離れているが、三次元構造では空間的に近接しているアミノ酸を接続する。
また、注意とタンパク質構造との相互作用を三次元的に可視化する。
- 参考スコア(独自算出の注目度): 124.8966298974842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer architectures have proven to learn useful representations for
protein classification and generation tasks. However, these representations
present challenges in interpretability. In this work, we demonstrate a set of
methods for analyzing protein Transformer models through the lens of attention.
We show that attention: (1) captures the folding structure of proteins,
connecting amino acids that are far apart in the underlying sequence, but
spatially close in the three-dimensional structure, (2) targets binding sites,
a key functional component of proteins, and (3) focuses on progressively more
complex biophysical properties with increasing layer depth. We find this
behavior to be consistent across three Transformer architectures (BERT, ALBERT,
XLNet) and two distinct protein datasets. We also present a three-dimensional
visualization of the interaction between attention and protein structure. Code
for visualization and analysis is available at
https://github.com/salesforce/provis.
- Abstract(参考訳): トランスフォーマーアーキテクチャは、タンパク質の分類と生成タスクの有用な表現を学ぶことが証明されている。
しかし、これらの表現は解釈可能性の課題を示す。
本研究では,タンパク質トランスフォーマーモデルを注目レンズで解析するための一連の手法を実証する。
1) タンパク質の折りたたみ構造を捉え, 基底配列に遠く離れているが立体構造に空間的に近いアミノ酸を結合し, (2) タンパク質の主要な機能成分である結合部位を標的とし, 3) 層深度を増加させるとともに, より複雑な生物物理特性に着目する。
この挙動は、3つのTransformerアーキテクチャ(BERT, ALBERT, XLNet)と2つの異なるタンパク質データセットで一致している。
また,注意とタンパク質構造との相互作用を3次元的に可視化する。
可視化と分析のためのコードはhttps://github.com/salesforce/provis.com/で入手できる。
関連論文リスト
- xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Functional Geometry Guided Protein Sequence and Backbone Structure
Co-Design [12.585697288315846]
本稿では,自動検出機能部位に基づくタンパク質配列と構造を共同設計するモデルを提案する。
NAEProは、全シーケンスでグローバルな相関を捉えることができる、注目層と同変層のインターリービングネットワークによって駆動される。
実験結果から,本モデルは全競技種の中で,最高アミノ酸回収率,TMスコア,最低RMSDを実現していることがわかった。
論文 参考訳(メタデータ) (2023-10-06T16:08:41Z) - CrysFormer: Protein Structure Prediction via 3d Patterson Maps and
Partial Structure Attention [7.716601082662128]
タンパク質の3次元構造は、しばしば非自明な計算コストをもたらす。
本稿では,タンパク質結晶学と部分構造情報を直接利用するトランスフォーマーモデルを提案する。
提案手法はtextttCrysFormer と呼ばれ,より小さなデータセットサイズと計算コストの削減に基づいて精度の高い予測を行うことができる。
論文 参考訳(メタデータ) (2023-10-05T21:10:22Z) - Joint Design of Protein Sequence and Structure based on Motifs [11.731131799546489]
タンパク質のバックボーン構造と配列を共同で設計するGeoProを提案する。
GeoProは3次元(3D)バックボーン構造のための同変エンコーダと3次元幾何学でガイドされるタンパク質配列デコーダによって駆動される。
本手法はタンパク質データバンク(PDB)やUniProtに存在しない新規な$beta$-lactamasesおよびミオグロビンを発見する。
論文 参考訳(メタデータ) (2023-10-04T03:07:03Z) - A Latent Diffusion Model for Protein Structure Generation [50.74232632854264]
本稿では,タンパク質モデリングの複雑さを低減できる潜在拡散モデルを提案する。
提案手法は, 高い設計性と効率性を有する新規なタンパク質のバックボーン構造を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-05-06T19:10:19Z) - Integration of Pre-trained Protein Language Models into Geometric Deep
Learning Networks [68.90692290665648]
我々は、タンパク質言語モデルから学んだ知識を、いくつかの最先端の幾何学的ネットワークに統合する。
以上の結果から,ベースラインを20%上回る総合的な改善が見られた。
強い証拠は、タンパク質言語モデルの知識を取り入れることで、幾何学的ネットワークの能力が著しく向上することを示している。
論文 参考訳(メタデータ) (2022-12-07T04:04:04Z) - Contrastive Representation Learning for 3D Protein Structures [13.581113136149469]
本稿では3次元タンパク質構造のための新しい表現学習フレームワークを提案する。
我々のフレームワークは、教師なしのコントラスト学習を用いて、タンパク質構造の意味のある表現を学習する。
これらの表現は、タンパク質機能予測、タンパク質の折りたたみ分類、構造的類似性予測、タンパク質-リガンド結合親和性予測など、様々なタスクを解くためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2022-05-31T10:33:06Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - Independent SE(3)-Equivariant Models for End-to-End Rigid Protein
Docking [57.2037357017652]
我々は、剛体タンパク質ドッキング、すなわち、個々の非結合構造からタンパク質-タンパク質複合体の3次元構造を計算的に予測する。
本研究では, タンパク質の回転と翻訳を予測し, 1つのタンパク質をドッキング位置に置くために, ペアワイズ非独立なSE(3)-等変グラフマッチングネットワークを設計する。
我々のモデルはEquiDockと呼ばれ、結合ポケットを近似し、キーポイントマッチングとアライメントを用いてドッキングポーズを予測する。
論文 参考訳(メタデータ) (2021-11-15T18:46:37Z) - G-VAE, a Geometric Convolutional VAE for ProteinStructure Generation [41.66010308405784]
本稿では,3次元タンパク質構造の比較,変形,生成のための統合幾何学的ニューラルネットワーク手法を提案する。
本手法は, トレーニングデータの構造と異なり, 可塑性構造を生成することができる。
論文 参考訳(メタデータ) (2021-06-22T16:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。