論文の概要: NaNa and MiGu: Semantic Data Augmentation Techniques to Enhance Protein Classification in Graph Neural Networks
- arxiv url: http://arxiv.org/abs/2403.14736v2
- Date: Tue, 26 Mar 2024 05:25:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 12:03:31.841614
- Title: NaNa and MiGu: Semantic Data Augmentation Techniques to Enhance Protein Classification in Graph Neural Networks
- Title(参考訳): NaNaとMiGu:グラフニューラルネットワークにおけるタンパク質の分類を促進する意味的データ拡張技術
- Authors: Yi-Shan Lan, Pin-Yu Chen, Tsung-Yi Ho,
- Abstract要約: 本稿では,背骨化学および側鎖生物物理情報をタンパク質分類タスクに組み込む新しい意味データ拡張手法を提案する。
具体的には, 分子生物学的, 二次構造, 化学結合, およびタンパク質のイオン特性を活用し, 分類作業を容易にする。
- 参考スコア(独自算出の注目度): 60.48306899271866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Protein classification tasks are essential in drug discovery. Real-world protein structures are dynamic, which will determine the properties of proteins. However, the existing machine learning methods, like ProNet (Wang et al., 2022a), only access limited conformational characteristics and protein side-chain features, leading to impractical protein structure and inaccuracy of protein classes in their predictions. In this paper, we propose novel semantic data augmentation methods, Novel Augmentation of New Node Attributes (NaNa), and Molecular Interactions and Geometric Upgrading (MiGu) to incorporate backbone chemical and side-chain biophysical information into protein classification tasks and a co-embedding residual learning framework. Specifically, we leverage molecular biophysical, secondary structure, chemical bonds, and ionic features of proteins to facilitate protein classification tasks. Furthermore, our semantic augmentation methods and the co-embedding residual learning framework can improve the performance of GIN (Xu et al., 2019) on EC and Fold datasets (Bairoch, 2000; Andreeva et al., 2007) by 16.41% and 11.33% respectively. Our code is available at https://github.com/r08b46009/Code_for_MIGU_NANA/tree/main.
- Abstract(参考訳): タンパク質の分類は薬物発見に不可欠である。
現実世界のタンパク質構造は動的であり、タンパク質の性質を決定する。
しかし、ProNet(Wang et al , 2022a)のような既存の機械学習手法は、限定されたコンフォメーション特性とタンパク質側鎖の特徴のみにアクセスでき、それらの予測において、非現実的なタンパク質構造とタンパク質クラスの不正確さをもたらす。
本稿では,新規なセマンティックデータ拡張手法,新しいノード属性の強化(NaNa)および分子間相互作用と幾何学的アップグレード(MiGu)を提案し,背骨化学および側鎖生物物理情報をタンパク質分類タスクと組込み残差学習フレームワークに組み込む。
具体的には, 分子生物学的, 二次構造, 化学結合, およびタンパク質のイオン特性を活用し, タンパク質の分類作業を容易にする。
さらに,我々のセマンティック強化手法と協調埋め込み残学習フレームワークは,ECおよびFoldデータセット(Bairoch, 2000; Andreeva et al, 2007)におけるGIN(Xu et al , 2019)の性能を,それぞれ16.41%,11.33%向上させることができる。
私たちのコードはhttps://github.com/r08b46009/Code_for_MIGU_NANA/tree/mainで利用可能です。
関連論文リスト
- Advanced atom-level representations for protein flexibility prediction utilizing graph neural networks [0.0]
我々は,タンパク質の原子レベルでの表現を学習し,タンパク質3D構造からB因子を予測するグラフニューラルネットワーク(GNN)を提案する。
Meta-GNNモデルは、4k以上のタンパク質の大規模かつ多様なテストセット上での相関係数0.71を達成する。
論文 参考訳(メタデータ) (2024-08-22T16:15:13Z) - GOProteinGNN: Leveraging Protein Knowledge Graphs for Protein Representation Learning [27.192150057715835]
GOProteinGNNは、タンパク質知識グラフ情報を統合することにより、タンパク質言語モデルを強化する新しいアーキテクチャである。
我々のアプローチは、個々のアミノ酸レベルとタンパク質レベルの両方で情報の統合を可能にし、包括的で効果的な学習プロセスを可能にします。
論文 参考訳(メタデータ) (2024-07-31T17:54:22Z) - Clustering for Protein Representation Learning [72.72957540484664]
本稿では,タンパク質の臨界成分を自動的に検出するニューラルネットワーククラスタリングフレームワークを提案する。
我々のフレームワークはタンパク質をグラフとして扱い、各ノードはアミノ酸を表し、各エッジはアミノ酸間の空間的またはシーケンシャルな接続を表す。
タンパク質の折り畳み分類, 酵素反応分類, 遺伝子期予測, 酵素コミッショニング数予測の4つの課題について検討した。
論文 参考訳(メタデータ) (2024-03-30T05:51:09Z) - Structure-Informed Protein Language Model [38.019425619750265]
本稿では、構造情報をタンパク質言語モデルに抽出するためのリモートホモロジー検出の統合について紹介する。
この構造インフォームドトレーニングが下流タンパク質機能予測タスクに与える影響を評価する。
論文 参考訳(メタデータ) (2024-02-07T09:32:35Z) - Learning the shape of protein micro-environments with a holographic
convolutional neural network [0.0]
本稿では,タンパク質のホログラフィック畳み込みニューラルネットワーク(H-CNN)を紹介する。
H-CNNは、タンパク質構造におけるアミノ酸の嗜好をモデル化するための、物理的に動機付けられた機械学習アプローチである。
タンパク質複合体の安定性や結合を含むタンパク質機能に対する突然変異の影響を正確に予測する。
論文 参考訳(メタデータ) (2022-11-05T16:29:15Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - OntoProtein: Protein Pretraining With Gene Ontology Embedding [36.92674447484136]
GO(Gene Ontology)の構造をタンパク質事前学習モデルに活用する最初の汎用フレームワークであるOntoProteinを提案する。
我々はGOとその関連タンパク質からなる新しい大規模知識グラフを構築し、遺伝子アノテーションのテキストやタンパク質配列はグラフ内の全てのノードを記述する。
論文 参考訳(メタデータ) (2022-01-23T14:49:49Z) - Transfer Learning for Protein Structure Classification at Low Resolution [124.5573289131546]
タンパク質のクラスとアーキテクチャの正確な(geq$80%)予測を、低い(leq$3A)解像度で決定された構造から行うことができることを示す。
本稿では, 高速で低コストなタンパク質構造を低解像度で分類するための概念実証と, 機能予測への拡張の基礎を提供する。
論文 参考訳(メタデータ) (2020-08-11T15:01:32Z) - BERTology Meets Biology: Interpreting Attention in Protein Language
Models [124.8966298974842]
注目レンズを用いたタンパク質トランスフォーマーモデルの解析方法を示す。
注意はタンパク質の折りたたみ構造を捉え、基礎となる配列では遠く離れているが、三次元構造では空間的に近接しているアミノ酸を接続する。
また、注意とタンパク質構造との相互作用を三次元的に可視化する。
論文 参考訳(メタデータ) (2020-06-26T21:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。