論文の概要: Interpretable machine learning of amino acid patterns in proteins: a
statistical ensemble approach
- arxiv url: http://arxiv.org/abs/2303.15228v1
- Date: Mon, 27 Mar 2023 14:08:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 15:06:02.432627
- Title: Interpretable machine learning of amino acid patterns in proteins: a
statistical ensemble approach
- Title(参考訳): タンパク質のアミノ酸パターンの解釈型機械学習 : 統計的アンサンブルアプローチ
- Authors: Anna Braghetto, Enzo Orlandini, Marco Baiesi
- Abstract要約: ボルツマンマシンは、$alpha$-helicesまたは$beta$-sheetsの開始または終了時に5つのアミノ酸列に格納された情報を数ビットに連続的に圧縮することを示した。
機械が学習した重量は、アミノ酸の予期せぬ性質とタンパク質の二次構造を明らかにする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explainable and interpretable unsupervised machine learning helps understand
the underlying structure of data. We introduce an ensemble analysis of machine
learning models to consolidate their interpretation. Its application shows that
restricted Boltzmann machines compress consistently into a few bits the
information stored in a sequence of five amino acids at the start or end of
$\alpha$-helices or $\beta$-sheets. The weights learned by the machines reveal
unexpected properties of the amino acids and the secondary structure of
proteins: (i) His and Thr have a negligible contribution to the amphiphilic
pattern of $\alpha$-helices; (ii) there is a class of $\alpha$-helices
particularly rich in Ala at their end; (iii) Pro occupies most often slots
otherwise occupied by polar or charged amino acids, and its presence at the
start of helices is relevant; (iv) Glu and especially Asp on one side, and Val,
Leu, Iso, and Phe on the other, display the strongest tendency to mark
amphiphilic patterns, i.e., extreme values of an "effective hydrophobicity",
though they are not the most powerful (non) hydrophobic amino acids.
- Abstract(参考訳): 説明可能で解釈不能な機械学習は、データの基盤構造を理解するのに役立つ。
機械学習モデルのアンサンブル解析を導入し,その解釈を統合する。
その応用により、制限されたボルツマンマシンは、$\alpha$-helicesまたは$\beta$-sheetsの開始または終了時に5つのアミノ酸の配列に格納された情報を、一貫して数ビットに圧縮する。
機械が学習した重量は、アミノ酸の予期せぬ性質とタンパク質の二次構造を明らかにします。
(i) his と thr は、$\alpha$-helices の両親交配パターンに不可分な貢献をしている。
(ii)最後には特にアラに富む$\alpha$-helicesのクラスがあります。
(iii)プロは、極性アミノ酸又は荷電性アミノ酸が占有するスロットを多く占めており、ヘリックスの開始時にその存在が関係している。
(iv) glu、特に片側のasp、val、leu、iso、pheは、最も強力な両親媒性パターン、すなわち「効果的な疎水性」の極値を示す傾向を示すが、それらは最も強力な(非)疎水性アミノ酸ではない。
関連論文リスト
- ProtT3: Protein-to-Text Generation for Text-based Protein Understanding [88.43323947543996]
言語モデル(LM)は、タンパク質のテキスト記述を理解するのに優れている。
タンパク質言語モデル(PLM)は、タンパク質データを理解し、高品質な表現に変換するが、テキストを処理するのに苦労する。
ProtT3は、テキストベースのタンパク質理解のための、タンパク質からテキストへの生成のためのフレームワークである。
論文 参考訳(メタデータ) (2024-05-21T08:06:13Z) - Clustering for Protein Representation Learning [72.72957540484664]
本稿では,タンパク質の臨界成分を自動的に検出するニューラルネットワーククラスタリングフレームワークを提案する。
我々のフレームワークはタンパク質をグラフとして扱い、各ノードはアミノ酸を表し、各エッジはアミノ酸間の空間的またはシーケンシャルな接続を表す。
タンパク質の折り畳み分類, 酵素反応分類, 遺伝子期予測, 酵素コミッショニング数予測の4つの課題について検討した。
論文 参考訳(メタデータ) (2024-03-30T05:51:09Z) - NaNa and MiGu: Semantic Data Augmentation Techniques to Enhance Protein Classification in Graph Neural Networks [60.48306899271866]
本稿では,背骨化学および側鎖生物物理情報をタンパク質分類タスクに組み込む新しい意味データ拡張手法を提案する。
具体的には, 分子生物学的, 二次構造, 化学結合, およびタンパク質のイオン特性を活用し, 分類作業を容易にする。
論文 参考訳(メタデータ) (2024-03-21T13:27:57Z) - An approach to solve the coarse-grained Protein folding problem in a
Quantum Computer [0.0]
タンパク質の構造や酵素を理解することは、標的とした医薬品の設計、タンパク質関連疾患のメカニズムの解明、新規酵素の革新において重要な役割を担っている。
AIに基づくタンパク質構造予測手法の最近の進歩により、タンパク質の折り畳み問題はある程度解決されているが、配列の類似度が低いタンパク質の構造を決定する精度は限られている。
本研究では,より小さなタンパク質配列の構造を予測するために,ゲートベースの量子コンピュータ上で動作可能なターンベース符号化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-11-23T18:20:05Z) - PepLand: a large-scale pre-trained peptide representation model for a
comprehensive landscape of both canonical and non-canonical amino acids [0.4348327622270753]
PepLandは、カノニカルアミノ酸と非カノニカルアミノ酸の両方にまたがるペプチドの表現と性質解析のための新しい事前学習アーキテクチャである。
本質的にPepLandは、ペプチドの微妙な構造表現を明らかにするために、包括的な多視点不均一グラフニューラルネットワークを活用している。
論文 参考訳(メタデータ) (2023-11-08T01:18:32Z) - DiffDock-PP: Rigid Protein-Protein Docking with Diffusion Models [47.73386438748902]
DiffDock-PPは拡散生成モデルであり、非有界タンパク質構造をそれらの有界配座に翻訳し回転させる。
中央値C-RMSDが4.85でDIPSの最先端性能を達成し,すべてのベースラインを上回りました。
論文 参考訳(メタデータ) (2023-04-08T02:10:44Z) - Multimodal Pre-Training Model for Sequence-based Prediction of
Protein-Protein Interaction [7.022012579173686]
タンパク質モデルによる効果的な表現の学習は、タンパク質とタンパク質の相互作用において重要である。
PPIの事前学習モデルのほとんどは配列ベースであり、自然言語処理で使用される言語モデルをアミノ酸配列に導入している。
本稿では, 配列, 構造, 機能という3つのモーダル性を持つマルチモーダルタンパク質事前学習モデルを提案する。
論文 参考訳(メタデータ) (2021-12-09T10:21:52Z) - Deep Learning of High-Order Interactions for Protein Interface
Prediction [58.164371994210406]
本稿では,タンパク質界面の予測を2次元密度予測問題として定式化する。
タンパク質をグラフとして表現し、グラフニューラルネットワークを用いてノードの特徴を学習する。
我々は高次対相互作用を組み込んで、異なる対相互作用を含む3次元テンソルを生成する。
論文 参考訳(メタデータ) (2020-07-18T05:39:35Z) - BERTology Meets Biology: Interpreting Attention in Protein Language
Models [124.8966298974842]
注目レンズを用いたタンパク質トランスフォーマーモデルの解析方法を示す。
注意はタンパク質の折りたたみ構造を捉え、基礎となる配列では遠く離れているが、三次元構造では空間的に近接しているアミノ酸を接続する。
また、注意とタンパク質構造との相互作用を三次元的に可視化する。
論文 参考訳(メタデータ) (2020-06-26T21:50:17Z) - Lattice protein design using Bayesian learning [0.0]
タンパク質設計は3次元構造予測の逆アプローチであり、3次元構造とアミノ酸配列の関係を解明する。
本稿では,ベイズ学習を用いた新しい統計力学的設計法を提案する。
水の化学的ポテンシャルと表面残基数との間に強い線形性を見出した結果,タンパク質構造と水分子の効果の関係が明らかになった。
論文 参考訳(メタデータ) (2020-03-14T10:27:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。