論文の概要: BERTology Meets Biology: Interpreting Attention in Protein Language
Models
- arxiv url: http://arxiv.org/abs/2006.15222v3
- Date: Sun, 28 Mar 2021 21:56:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 21:20:58.772622
- Title: BERTology Meets Biology: Interpreting Attention in Protein Language
Models
- Title(参考訳): bertology meets biology: タンパク質言語モデルにおける注意の解釈
- Authors: Jesse Vig, Ali Madani, Lav R. Varshney, Caiming Xiong, Richard Socher,
Nazneen Fatema Rajani
- Abstract要約: 注目レンズを用いたタンパク質トランスフォーマーモデルの解析方法を示す。
注意はタンパク質の折りたたみ構造を捉え、基礎となる配列では遠く離れているが、三次元構造では空間的に近接しているアミノ酸を接続する。
また、注意とタンパク質構造との相互作用を三次元的に可視化する。
- 参考スコア(独自算出の注目度): 124.8966298974842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer architectures have proven to learn useful representations for
protein classification and generation tasks. However, these representations
present challenges in interpretability. In this work, we demonstrate a set of
methods for analyzing protein Transformer models through the lens of attention.
We show that attention: (1) captures the folding structure of proteins,
connecting amino acids that are far apart in the underlying sequence, but
spatially close in the three-dimensional structure, (2) targets binding sites,
a key functional component of proteins, and (3) focuses on progressively more
complex biophysical properties with increasing layer depth. We find this
behavior to be consistent across three Transformer architectures (BERT, ALBERT,
XLNet) and two distinct protein datasets. We also present a three-dimensional
visualization of the interaction between attention and protein structure. Code
for visualization and analysis is available at
https://github.com/salesforce/provis.
- Abstract(参考訳): トランスフォーマーアーキテクチャは、タンパク質の分類と生成タスクの有用な表現を学ぶことが証明されている。
しかし、これらの表現は解釈可能性の課題を示す。
本研究では,タンパク質トランスフォーマーモデルを注目レンズで解析するための一連の手法を実証する。
1) タンパク質の折りたたみ構造を捉え, 基底配列に遠く離れているが立体構造に空間的に近いアミノ酸を結合し, (2) タンパク質の主要な機能成分である結合部位を標的とし, 3) 層深度を増加させるとともに, より複雑な生物物理特性に着目する。
この挙動は、3つのTransformerアーキテクチャ(BERT, ALBERT, XLNet)と2つの異なるタンパク質データセットで一致している。
また,注意とタンパク質構造との相互作用を3次元的に可視化する。
可視化と分析のためのコードはhttps://github.com/salesforce/provis.com/で入手できる。
関連論文リスト
- ProteinWeaver: A Divide-and-Assembly Approach for Protein Backbone Design [61.19456204667385]
本稿では,タンパク質のバックボーン設計のための2段階フレームワークであるProteinWeaverを紹介する。
プロテインウィーバーは、多用途ドメインアセンブリを通じて高品質で新規なタンパク質のバックボーンを生成する。
分割組立パラダイムを導入することにより、タンパク質工学を進歩させ、機能的タンパク質設計のための新たな道を開く。
論文 参考訳(メタデータ) (2024-11-08T08:10:49Z) - Long-context Protein Language Model [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。
ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。
そこで我々は,選択的構造化状態空間モデルから構築した代替のタンパク質LMアーキテクチャであるBiMamba-Sに基づくLC-PLMを提案する。
また、第2段階のトレーニングのために、タンパク質-タンパク質相互作用グラフの文脈化を行うLC-PLM-Gも導入した。
論文 参考訳(メタデータ) (2024-10-29T16:43:28Z) - Geometric Self-Supervised Pretraining on 3D Protein Structures using Subgraphs [26.727436310732692]
本稿では,3次元タンパク質構造上の3次元グラフニューラルネットワークを事前学習するための自己教師型手法を提案する。
提案手法が6%までの大幅な改善につながることを実験的に示す。
論文 参考訳(メタデータ) (2024-06-20T09:34:31Z) - Functional Geometry Guided Protein Sequence and Backbone Structure
Co-Design [12.585697288315846]
本稿では,自動検出機能部位に基づくタンパク質配列と構造を共同設計するモデルを提案する。
NAEProは、全シーケンスでグローバルな相関を捉えることができる、注目層と同変層のインターリービングネットワークによって駆動される。
実験結果から,本モデルは全競技種の中で,最高アミノ酸回収率,TMスコア,最低RMSDを実現していることがわかった。
論文 参考訳(メタデータ) (2023-10-06T16:08:41Z) - CrysFormer: Protein Structure Prediction via 3d Patterson Maps and
Partial Structure Attention [7.716601082662128]
タンパク質の3次元構造は、しばしば非自明な計算コストをもたらす。
本稿では,タンパク質結晶学と部分構造情報を直接利用するトランスフォーマーモデルを提案する。
提案手法はtextttCrysFormer と呼ばれ,より小さなデータセットサイズと計算コストの削減に基づいて精度の高い予測を行うことができる。
論文 参考訳(メタデータ) (2023-10-05T21:10:22Z) - Joint Design of Protein Sequence and Structure based on Motifs [11.731131799546489]
タンパク質のバックボーン構造と配列を共同で設計するGeoProを提案する。
GeoProは3次元(3D)バックボーン構造のための同変エンコーダと3次元幾何学でガイドされるタンパク質配列デコーダによって駆動される。
本手法はタンパク質データバンク(PDB)やUniProtに存在しない新規な$beta$-lactamasesおよびミオグロビンを発見する。
論文 参考訳(メタデータ) (2023-10-04T03:07:03Z) - EquiPocket: an E(3)-Equivariant Geometric Graph Neural Network for Ligand Binding Site Prediction [49.674494450107005]
標的タンパク質の結合部位の予測は、薬物発見の基本的な役割を担っている。
既存のディープラーニング手法の多くは、タンパク質を原子をボクセルに空間的にクラスタリングすることで3D画像とみなしている。
本研究では,結合サイト予測のためのE3-equivariant Graph Neural Network(GNN)であるEquiPocketを提案する。
論文 参考訳(メタデータ) (2023-02-23T17:18:26Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - Independent SE(3)-Equivariant Models for End-to-End Rigid Protein
Docking [57.2037357017652]
我々は、剛体タンパク質ドッキング、すなわち、個々の非結合構造からタンパク質-タンパク質複合体の3次元構造を計算的に予測する。
本研究では, タンパク質の回転と翻訳を予測し, 1つのタンパク質をドッキング位置に置くために, ペアワイズ非独立なSE(3)-等変グラフマッチングネットワークを設計する。
我々のモデルはEquiDockと呼ばれ、結合ポケットを近似し、キーポイントマッチングとアライメントを用いてドッキングポーズを予測する。
論文 参考訳(メタデータ) (2021-11-15T18:46:37Z) - G-VAE, a Geometric Convolutional VAE for ProteinStructure Generation [41.66010308405784]
本稿では,3次元タンパク質構造の比較,変形,生成のための統合幾何学的ニューラルネットワーク手法を提案する。
本手法は, トレーニングデータの構造と異なり, 可塑性構造を生成することができる。
論文 参考訳(メタデータ) (2021-06-22T16:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。