論文の概要: AmorProt: Amino Acid Molecular Fingerprints Repurposing based Protein
Fingerprint
- arxiv url: http://arxiv.org/abs/2303.16209v1
- Date: Mon, 27 Mar 2023 23:57:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 17:22:33.052159
- Title: AmorProt: Amino Acid Molecular Fingerprints Repurposing based Protein
Fingerprint
- Title(参考訳): amorprot: タンパク質指紋に基づくアミノ酸分子指紋の再構成
- Authors: Myeonghun Lee and Kyoungmin Min
- Abstract要約: そこで本研究では,AmorProt型タンパク質 (AmorProt型タンパク質) を精製するアミノ酸分子指紋を提案する。
木に基づく機械学習と人工ニューラルネットワークモデルの性能を比較した。
その結果、現在のタンパク質表現法は、タンパク質に関連する様々な分野に適用できることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As protein therapeutics play an important role in almost all medical fields,
numerous studies have been conducted on proteins using artificial intelligence.
Artificial intelligence has enabled data driven predictions without the need
for expensive experiments. Nevertheless, unlike the various molecular
fingerprint algorithms that have been developed, protein fingerprint algorithms
have rarely been studied. In this study, we proposed the amino acid molecular
fingerprints repurposing based protein (AmorProt) fingerprint, a protein
sequence representation method that effectively uses the molecular fingerprints
corresponding to 20 amino acids. Subsequently, the performances of the tree
based machine learning and artificial neural network models were compared using
(1) amyloid classification and (2) isoelectric point regression. Finally, the
applicability and advantages of the developed platform were demonstrated
through a case study and the following experiments: (3) comparison of dataset
dependence with feature based methods; (4) feature importance analysis; and (5)
protein space analysis. Consequently, the significantly improved model
performance and data set independent versatility of the AmorProt fingerprint
were verified. The results revealed that the current protein representation
method can be applied to various fields related to proteins, such as predicting
their fundamental properties or interaction with ligands.
- Abstract(参考訳): タンパク質治療は、ほとんどすべての医学分野で重要な役割を果たすため、人工知能を用いたタンパク質の研究が数多く行われている。
人工知能は、高価な実験を必要とせずに、データ駆動予測を可能にした。
それにもかかわらず、様々な分子指紋アルゴリズムとは異なり、タンパク質指紋アルゴリズムはほとんど研究されていない。
本研究では,20個のアミノ酸に対応する分子指紋を効果的に活用するタンパク質配列表現法である,AmorProtを組み換えたアミノ酸分子指紋を提案する。
その後,(1)アミロイド分類と(2)等電点回帰を用いて,木に基づく機械学習と人工ニューラルネットワークモデルの性能を比較した。
最後に, 開発したプラットフォームの適用性および利点について, ケーススタディおよび以下の実験により実証した。(3) データセット依存度と特徴に基づく手法の比較, (4) 特徴重要度分析, (5) タンパク質空間解析。
その結果,amorprotフィンガープリントのモデル性能が大幅に向上し,データセットの独立性が検証された。
その結果、現在のタンパク質表現法は、その基本特性の予測やリガンドとの相互作用など、タンパク質に関連する様々な分野に適用できることがわかった。
関連論文リスト
- Long-context Protein Language Model [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。
ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。
そこで我々は,選択的構造化状態空間モデルから構築した代替のタンパク質LMアーキテクチャであるBiMamba-Sに基づくLC-PLMを提案する。
また、第2段階のトレーニングのために、タンパク質-タンパク質相互作用グラフの文脈化を行うLC-PLM-Gも導入した。
論文 参考訳(メタデータ) (2024-10-29T16:43:28Z) - Advanced atom-level representations for protein flexibility prediction utilizing graph neural networks [0.0]
我々は,タンパク質の原子レベルでの表現を学習し,タンパク質3D構造からB因子を予測するグラフニューラルネットワーク(GNN)を提案する。
Meta-GNNモデルは、4k以上のタンパク質の大規模かつ多様なテストセット上での相関係数0.71を達成する。
論文 参考訳(メタデータ) (2024-08-22T16:15:13Z) - Beyond ESM2: Graph-Enhanced Protein Sequence Modeling with Efficient Clustering [24.415612744612773]
タンパク質は生命の過程に必須であり、進化と多様性を支えている。
シークエンシング技術の進歩により数百万のタンパク質が明らかにされ、生物学的分析とAI開発のための高度な事前学習されたタンパク質モデルの必要性が強調されている。
FacebookのESM2は、これまでで最も先進的なタンパク質言語モデルであり、教師なし学習にマスク付き予測タスクを活用し、顕著な生化学的精度でアミノ酸表現を作成する。
しかし、機能的なタンパク質の洞察の提供に欠けており、表現の質を高める機会を示唆している。
本研究は,タンパク質ファミリー分類をESM2のトレーニングに組み込むことにより,このギャップに対処する。
論文 参考訳(メタデータ) (2024-04-24T11:09:43Z) - NaNa and MiGu: Semantic Data Augmentation Techniques to Enhance Protein Classification in Graph Neural Networks [60.48306899271866]
本稿では,背骨化学および側鎖生物物理情報をタンパク質分類タスクに組み込む新しい意味データ拡張手法を提案する。
具体的には, 分子生物学的, 二次構造, 化学結合, およびタンパク質のイオン特性を活用し, 分類作業を容易にする。
論文 参考訳(メタデータ) (2024-03-21T13:27:57Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Improved K-mer Based Prediction of Protein-Protein Interactions With
Chaos Game Representation, Deep Learning and Reduced Representation Bias [0.0]
本稿では,対話データセットからユニークなペアを抽出し,非バイアス付き機械学習のための非冗長なペアデータを生成する手法を提案する。
我々は,タンパク質のコード遺伝子のカオスゲーム表現から相互作用を学習し,予測できる畳み込みニューラルネットワークモデルを開発した。
論文 参考訳(メタデータ) (2023-10-23T10:02:23Z) - Multi-level Protein Representation Learning for Blind Mutational Effect
Prediction [5.207307163958806]
本稿では,タンパク質構造解析のためのシーケンシャルおよび幾何学的アナライザをカスケードする,新しい事前学習フレームワークを提案する。
野生型タンパク質の自然選択をシミュレートすることにより、所望の形質に対する突然変異方向を誘導する。
提案手法は,多種多様な効果予測タスクに対して,パブリックデータベースと2つの新しいデータベースを用いて評価する。
論文 参考訳(メタデータ) (2023-06-08T03:00:50Z) - Integration of Pre-trained Protein Language Models into Geometric Deep
Learning Networks [68.90692290665648]
我々は、タンパク質言語モデルから学んだ知識を、いくつかの最先端の幾何学的ネットワークに統合する。
以上の結果から,ベースラインを20%上回る総合的な改善が見られた。
強い証拠は、タンパク質言語モデルの知識を取り入れることで、幾何学的ネットワークの能力が著しく向上することを示している。
論文 参考訳(メタデータ) (2022-12-07T04:04:04Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Protein Representation Learning by Geometric Structure Pretraining [27.723095456631906]
既存のアプローチは通常、多くの未ラベルアミノ酸配列で事前訓練されたタンパク質言語モデルである。
まず,タンパク質の幾何学的特徴を学習するための単純かつ効果的なエンコーダを提案する。
関数予測と折り畳み分類の両タスクの実験結果から,提案した事前学習法は,より少ないデータを用いた最先端のシーケンスベース手法と同等あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2022-03-11T17:52:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。