論文の概要: Protein-Mamba: Biological Mamba Models for Protein Function Prediction
- arxiv url: http://arxiv.org/abs/2409.14617v1
- Date: Sun, 22 Sep 2024 22:51:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 21:45:58.993137
- Title: Protein-Mamba: Biological Mamba Models for Protein Function Prediction
- Title(参考訳): タンパク質-マンバ:タンパク質機能予測のための生物学的マンバモデル
- Authors: Bohao Xu, Yingzhou Lu, Yoshitaka Inoue, Namkyeong Lee, Tianfan Fu, Jintai Chen,
- Abstract要約: タンパク質-マンバは、タンパク質機能予測を改善するために、自己教師付き学習と微調整の両方を活用する新しい2段階モデルである。
実験の結果,Protein-Mambaはいくつかの最先端手法と比較して,競争力を発揮することが示された。
- 参考スコア(独自算出の注目度): 18.642511763423048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Protein function prediction is a pivotal task in drug discovery, significantly impacting the development of effective and safe therapeutics. Traditional machine learning models often struggle with the complexity and variability inherent in predicting protein functions, necessitating more sophisticated approaches. In this work, we introduce Protein-Mamba, a novel two-stage model that leverages both self-supervised learning and fine-tuning to improve protein function prediction. The pre-training stage allows the model to capture general chemical structures and relationships from large, unlabeled datasets, while the fine-tuning stage refines these insights using specific labeled datasets, resulting in superior prediction performance. Our extensive experiments demonstrate that Protein-Mamba achieves competitive performance, compared with a couple of state-of-the-art methods across a range of protein function datasets. This model's ability to effectively utilize both unlabeled and labeled data highlights the potential of self-supervised learning in advancing protein function prediction and offers a promising direction for future research in drug discovery.
- Abstract(参考訳): タンパク質機能予測は、薬物発見において重要な課題であり、効果的で安全な治療薬の開発に大きな影響を及ぼす。
従来の機械学習モデルは、タンパク質機能の予測に固有の複雑さと多様性に苦しむことが多く、より洗練されたアプローチを必要とする。
本研究では,タンパク質機能予測を改善するために,自己教師付き学習と微調整の両方を活用する新しい2段階モデルであるProtein-Mambaを紹介する。
事前トレーニングの段階では、モデルが大規模でラベル付けされていないデータセットから一般的な化学構造や関係をキャプチャし、微調整の段階では特定のラベル付きデータセットを使用してこれらの洞察を洗練し、予測性能が向上する。
我々の広範囲な実験により、タンパク質-マンバは、さまざまなタンパク質機能データセットにまたがる最先端のいくつかの手法と比較して、競争力を発揮することが示された。
このモデルがラベル付きデータとラベル付きデータの両方を効果的に活用する能力は、タンパク質機能予測の進歩における自己教師付き学習の可能性を強調し、薬物発見の今後の研究に有望な方向を提供する。
関連論文リスト
- Training on test proteins improves fitness, structure, and function prediction [18.176929152066872]
大規模データセット上での自己教師付き事前トレーニングは、一般化を強化するための一般的な方法である。
そこで本研究では,テスト時に自己教師型微調整を行う手法を導入し,モデルがハエの関心を持つテストタンパク質に適応できるようにした。
本手法は,タンパク質の適合度予測のための標準ベンチマークにおいて,新しい最先端結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-11-04T14:23:59Z) - SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - Beyond ESM2: Graph-Enhanced Protein Sequence Modeling with Efficient Clustering [24.415612744612773]
タンパク質は生命の過程に必須であり、進化と多様性を支えている。
シークエンシング技術の進歩により数百万のタンパク質が明らかにされ、生物学的分析とAI開発のための高度な事前学習されたタンパク質モデルの必要性が強調されている。
FacebookのESM2は、これまでで最も先進的なタンパク質言語モデルであり、教師なし学習にマスク付き予測タスクを活用し、顕著な生化学的精度でアミノ酸表現を作成する。
しかし、機能的なタンパク質の洞察の提供に欠けており、表現の質を高める機会を示唆している。
本研究は,タンパク質ファミリー分類をESM2のトレーニングに組み込むことにより,このギャップに対処する。
論文 参考訳(メタデータ) (2024-04-24T11:09:43Z) - ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。
PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。
PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T05:32:42Z) - Enhancing Protein Predictive Models via Proteins Data Augmentation: A
Benchmark and New Directions [58.819567030843025]
本稿では,これまで画像やテキストに用いたデータ拡張手法をタンパク質に拡張し,タンパク質関連タスクでこれらの手法をベンチマークする。
本稿では,2つの新規な意味レベルタンパク質増強法,すなわち,統合的グラディエント置換法とバック翻訳置換法を提案する。
最後に、拡張および提案された拡張を拡張プールに統合し、シンプルで効果的なフレームワークであるAutomated Protein Augmentation (APA)を提案する。
論文 参考訳(メタデータ) (2024-03-01T07:58:29Z) - ProtIR: Iterative Refinement between Retrievers and Predictors for
Protein Function Annotation [38.019425619750265]
本稿では,タンパク質間類似性モデリングを取り入れた関数予測器の改良を目的とした,新しい変分擬似類似性フレームワークProtIRを提案する。
ProtIRは、バニラ予測に基づく手法よりも約10%改善されている。
タンパク質言語モデルに基づく手法と同等の性能を発揮するが、大規模な事前学習は必要としない。
論文 参考訳(メタデータ) (2024-02-10T17:31:46Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Multi-level Protein Representation Learning for Blind Mutational Effect
Prediction [5.207307163958806]
本稿では,タンパク質構造解析のためのシーケンシャルおよび幾何学的アナライザをカスケードする,新しい事前学習フレームワークを提案する。
野生型タンパク質の自然選択をシミュレートすることにより、所望の形質に対する突然変異方向を誘導する。
提案手法は,多種多様な効果予測タスクに対して,パブリックデータベースと2つの新しいデータベースを用いて評価する。
論文 参考訳(メタデータ) (2023-06-08T03:00:50Z) - A Latent Diffusion Model for Protein Structure Generation [50.74232632854264]
本稿では,タンパク質モデリングの複雑さを低減できる潜在拡散モデルを提案する。
提案手法は, 高い設計性と効率性を有する新規なタンパク質のバックボーン構造を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-05-06T19:10:19Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Protein Representation Learning by Geometric Structure Pretraining [27.723095456631906]
既存のアプローチは通常、多くの未ラベルアミノ酸配列で事前訓練されたタンパク質言語モデルである。
まず,タンパク質の幾何学的特徴を学習するための単純かつ効果的なエンコーダを提案する。
関数予測と折り畳み分類の両タスクの実験結果から,提案した事前学習法は,より少ないデータを用いた最先端のシーケンスベース手法と同等あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2022-03-11T17:52:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。