論文の概要: Open-Source Protein Language Models for Function Prediction and Protein Design
- arxiv url: http://arxiv.org/abs/2412.13519v1
- Date: Wed, 18 Dec 2024 05:41:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:47:38.161825
- Title: Open-Source Protein Language Models for Function Prediction and Protein Design
- Title(参考訳): 機能予測とタンパク質設計のためのオープンソースタンパク質言語モデル
- Authors: Shivasankaran Vanaja Pandi, Bharath Ramsundar,
- Abstract要約: タンパク質言語モデル(PLM)は、タンパク質配列の理解を改善することを約束しており、機能予測やタンパク質工学などの分野の発展に寄与している。
我々はPLMを、計算生物学と化学のためのオープンソースのフレームワークであるDeepChemに統合し、タンパク質関連のタスクのためのよりアクセスしやすいプラットフォームを提供する。
各種タンパク質予測タスクにおける統合モデルの性能評価を行い,ベンチマーク間で妥当な結果が得られることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Protein language models (PLMs) have shown promise in improving the understanding of protein sequences, contributing to advances in areas such as function prediction and protein engineering. However, training these models from scratch requires significant computational resources, limiting their accessibility. To address this, we integrate a PLM into DeepChem, an open-source framework for computational biology and chemistry, to provide a more accessible platform for protein-related tasks. We evaluate the performance of the integrated model on various protein prediction tasks, showing that it achieves reasonable results across benchmarks. Additionally, we present an exploration of generating plastic-degrading enzyme candidates using the model's embeddings and latent space manipulation techniques. While the results suggest that further refinement is needed, this approach provides a foundation for future work in enzyme design. This study aims to facilitate the use of PLMs in research fields like synthetic biology and environmental sustainability, even for those with limited computational resources.
- Abstract(参考訳): タンパク質言語モデル(PLM)は、タンパク質配列の理解を改善することを約束しており、機能予測やタンパク質工学などの分野の発展に寄与している。
しかしながら、これらのモデルをスクラッチからトレーニングするには、アクセシビリティを制限し、かなりの計算資源が必要である。
これを解決するために、計算生物学と化学のためのオープンソースのフレームワークであるDeepChemにPLMを統合し、タンパク質関連タスクのためのよりアクセスしやすいプラットフォームを提供する。
各種タンパク質予測タスクにおける統合モデルの性能評価を行い,ベンチマーク間で妥当な結果が得られることを示した。
さらに, モデル埋め込みと潜時空間操作技術を用いて, プラスチック分解酵素候補の生成について検討する。
結果はさらなる改良が必要であることを示唆するが、このアプローチは酵素設計における将来の研究の基盤となる。
本研究は, 限られた計算資源を持つ人であっても, 合成生物学や環境持続可能性といった研究分野におけるPLMの利用を促進することを目的としている。
関連論文リスト
- Computational Protein Science in the Era of Large Language Models (LLMs) [54.35488233989787]
計算タンパク質科学(Computational protein science)は、タンパク質配列構造-機能パラダイムにおける知識を明らかにすること、および応用を開発することを目的としている。
最近、言語モデル (Language Models, PLM) は、前例のない言語処理と一般化能力のために、AIのマイルストーンとして登場した。
論文 参考訳(メタデータ) (2025-01-17T16:21:18Z) - Multi-modal Representation Learning Enables Accurate Protein Function Prediction in Low-Data Setting [0.0]
HOPER(Holistic ProtEin Representation)は、低データ設定でタンパク質機能予測(PFP)を強化するために設計された新しいフレームワークである。
本研究は,生物研究におけるデータ制限を克服するためのマルチモーダル表現学習の有効性を強調した。
論文 参考訳(メタデータ) (2024-11-22T20:13:55Z) - OneProt: Towards Multi-Modal Protein Foundation Models [5.440531199006399]
我々は、構造、配列、アライメント、結合サイトデータを統合する、タンパク質のためのマルチモーダルAIであるOneProtを紹介する。
金属イオン結合分類、遺伝子オントロジーアノテーション、酵素機能予測など、様々な下流タスクにおける最先端の手法を超越している。
この研究は、タンパク質モデルにおけるマルチモーダル能力を拡大し、薬物発見、生物触媒反応計画、タンパク質工学の応用への道を開く。
論文 参考訳(メタデータ) (2024-11-07T16:54:54Z) - Long-context Protein Language Model [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。
ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。
そこで我々は,選択的構造化状態空間モデルから構築した代替のタンパク質LMアーキテクチャであるBiMamba-Sに基づくLC-PLMを提案する。
また、第2段階のトレーニングのために、タンパク質-タンパク質相互作用グラフの文脈化を行うLC-PLM-Gも導入した。
論文 参考訳(メタデータ) (2024-10-29T16:43:28Z) - ProteinEngine: Empower LLM with Domain Knowledge for Protein Engineering [5.474946062328154]
textscProteinEngineは、タンパク質工学における大規模言語モデルの能力を増幅することを目的とした、人間中心のプラットフォームである。
textscProteinEngineはLLMに3つの異なる役割を割り当て、効率的なタスクデリゲート、特別なタスク解決、結果の効果的なコミュニケーションを容易にする。
この発見は、タンパク質工学領域における将来の研究のために、TextscProteinEngineが切断されたツールを花嫁にする可能性を強調した。
論文 参考訳(メタデータ) (2024-04-21T01:07:33Z) - MAPE-PPI: Towards Effective and Efficient Protein-Protein Interaction
Prediction via Microenvironment-Aware Protein Embedding [82.31506767274841]
タンパク質-プロテイン相互作用(PPI)は、様々な生物学的過程において基本的であり、生命活動において重要な役割を果たしている。
MPAE-PPIは、十分に大きな「語彙」を介して、マイクロ環境を化学的に意味のある離散コードに符号化する
MPAE-PPIは、数百万のPPIでPPI予測にスケールでき、有効性と計算効率のトレードオフが優れている。
論文 参考訳(メタデータ) (2024-02-22T09:04:41Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - PQA: Zero-shot Protein Question Answering for Free-form Scientific Enquiry with Large Language Models [4.5044944051958264]
Protein Question Answering (PQA) は、タスク固有のトレーニングなしで、幅広いタンパク質関連クエリに答えるように設計されたタスクである。
Pikaは、PQA用に調整された硬化した脱バイアスデータセットと、生化学的に関連するベンチマーク戦略で構成されている。
論文 参考訳(メタデータ) (2024-02-21T09:38:17Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [74.64101864289572]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。