論文の概要: TourSynbio: A Multi-Modal Large Model and Agent Framework to Bridge Text and Protein Sequences for Protein Engineering
- arxiv url: http://arxiv.org/abs/2408.15299v1
- Date: Tue, 27 Aug 2024 13:36:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 18:12:06.879453
- Title: TourSynbio: A Multi-Modal Large Model and Agent Framework to Bridge Text and Protein Sequences for Protein Engineering
- Title(参考訳): TourSynbio: タンパク質工学のためのテキストとタンパク質配列をブリッジするマルチモーダル大規模モデルとエージェントフレームワーク
- Authors: Yiqing Shen, Zan Chen, Michail Mamalakis, Yungeng Liu, Tianbin Li, Yanzhou Su, Junjun He, Pietro Liò, Yu Guang Wang,
- Abstract要約: TourSynbio-7Bは、外部のタンパク質エンコーダを使わずにタンパク質工学タスクのために設計された大型モデルである。
TourSynbio-Agentは、突然変異解析、逆フォールディング、タンパク質の折り畳み、可視化など、さまざまなタンパク質工学タスクを実行することができるフレームワークである。
- 参考スコア(独自算出の注目度): 21.963312554645924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The structural similarities between protein sequences and natural languages have led to parallel advancements in deep learning across both domains. While large language models (LLMs) have achieved much progress in the domain of natural language processing, their potential in protein engineering remains largely unexplored. Previous approaches have equipped LLMs with protein understanding capabilities by incorporating external protein encoders, but this fails to fully leverage the inherent similarities between protein sequences and natural languages, resulting in sub-optimal performance and increased model complexity. To address this gap, we present TourSynbio-7B, the first multi-modal large model specifically designed for protein engineering tasks without external protein encoders. TourSynbio-7B demonstrates that LLMs can inherently learn to understand proteins as language. The model is post-trained and instruction fine-tuned on InternLM2-7B using ProteinLMDataset, a dataset comprising 17.46 billion tokens of text and protein sequence for self-supervised pretraining and 893K instructions for supervised fine-tuning. TourSynbio-7B outperforms GPT-4 on the ProteinLMBench, a benchmark of 944 manually verified multiple-choice questions, with 62.18% accuracy. Leveraging TourSynbio-7B's enhanced protein sequence understanding capability, we introduce TourSynbio-Agent, an innovative framework capable of performing various protein engineering tasks, including mutation analysis, inverse folding, protein folding, and visualization. TourSynbio-Agent integrates previously disconnected deep learning models in the protein engineering domain, offering a unified conversational user interface for improved usability. Finally, we demonstrate the efficacy of TourSynbio-7B and TourSynbio-Agent through two wet lab case studies on vanilla key enzyme modification and steroid compound catalysis.
- Abstract(参考訳): タンパク質配列と自然言語の構造的類似性は、両方のドメインにまたがる深層学習の並列的な進歩をもたらした。
大規模言語モデル (LLM) は自然言語処理の分野で大きな進歩を遂げてきたが、タンパク質工学におけるその可能性はほとんど解明されていない。
従来のアプローチでは、外部のタンパク質エンコーダを組み込むことで、タンパク質理解機能を備えたLLMが実装されていたが、タンパク質配列と自然言語の固有の類似性を十分に活用できず、亜最適性能とモデル複雑さが増大した。
このギャップに対処するため、外部タンパク質エンコーダを使わずにタンパク質工学タスクに特化した最初のマルチモーダル大規模モデルであるTourSynbio-7Bを提案する。
TourSynbio-7Bは、LLMが本質的にタンパク質を言語として理解することができることを示した。
このモデルは、自己教師付き事前訓練のための176億のトークンとタンパク質配列と、教師付き微調整のための893Kの命令からなるデータセットであるProtectLMDatasetを使用して、InternLM2-7B上で訓練後、微調整された。
TourSynbio-7B はProteinLMBenchで GPT-4 を上回り、944 個の質問を手動で検証し、62.18%の精度で評価した。
TourSynbio-7Bのタンパク質配列理解機能を活用したTourSynbio-Agentは、突然変異解析、逆折り畳み、タンパク質折り畳み、可視化など、様々なタンパク質工学タスクを実行できる革新的なフレームワークである。
TourSynbio-Agentは、タンパク質エンジニアリングドメインに以前は接続されていなかったディープラーニングモデルを統合し、ユーザビリティを向上させるための統合された対話型ユーザインターフェースを提供する。
最後に,バニラキー酵素の修飾とステロイド化合物の触媒作用について,TourSynbio-7BおよびTourSynbio-Agentの有効性について検討した。
関連論文リスト
- OneProt: Towards Multi-Modal Protein Foundation Models [5.440531199006399]
我々は、構造、配列、アライメント、結合サイトデータを統合する、タンパク質のためのマルチモーダルAIであるOneProtを紹介する。
金属イオン結合分類、遺伝子オントロジーアノテーション、酵素機能予測など、様々な下流タスクにおける最先端の手法を超越している。
この研究は、タンパク質モデルにおけるマルチモーダル能力を拡大し、薬物発見、生物触媒反応計画、タンパク質工学の応用への道を開く。
論文 参考訳(メタデータ) (2024-11-07T16:54:54Z) - Long-context Protein Language Model [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。
ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。
そこで我々は,選択的構造化状態空間モデルから構築した代替のタンパク質LMアーキテクチャであるBiMamba-Sに基づくLC-PLMを提案する。
また、第2段階のトレーニングのために、タンパク質-タンパク質相互作用グラフの文脈化を行うLC-PLM-Gも導入した。
論文 参考訳(メタデータ) (2024-10-29T16:43:28Z) - Design Proteins Using Large Language Models: Enhancements and Comparative Analyses [12.140433802768733]
我々は、Mistral-7B1、Llama-2-7B2、Llama-3-8B3、gemma-7B4を含む事前訓練されたLLM群を採用し、有効なタンパク質配列を生成する。
我々はこれらのモデルを再訓練し、タンパク質関連データを処理し、生物学的に実現可能なタンパク質構造の生成を保証する。
実験の結果, 限られたデータであっても, 適応されたモデルは, 確立されたタンパク質中心モデルに匹敵する効率を示すことがわかった。
論文 参考訳(メタデータ) (2024-08-12T08:17:27Z) - Multi-Modal CLIP-Informed Protein Editing [8.927362207499181]
マルチモーダル学習による効率的なCLIPインフォームドタンパク質編集のためのProtETと呼ばれる新しい手法を提案する。
我々のアプローチは2つの段階から構成される: 事前学習段階において、コントラスト学習は2つの大きな言語モデル(LLM)によって符号化されたタンパク質-バイオテキスト表現を整列する。
タンパク質編集段階では、対象タンパク質配列を生成するための最終編集条件として、命令テキストと元のタンパク質配列の編集から融合した特徴がある。
論文 参考訳(メタデータ) (2024-07-27T16:41:08Z) - A Fine-tuning Dataset and Benchmark for Large Language Models for Protein Understanding [10.652670673334486]
ProteinLMBenchは、LCMのタンパク質理解能力を評価するために、手動で検証された多重選択質問からなる最初のベンチマークデータセットである。
ProteinLMDatasetは、さらに自己教師付き事前トレーニングと教師付き微調整のために設計されたデータセットである。
インターンLM2-7BはProteinLMDatasetで事前訓練され微調整され、ProteinLMBenchでGPT-4を上回り、高い精度のスコアを得た。
論文 参考訳(メタデータ) (2024-06-08T18:11:30Z) - ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。
PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。
PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T05:32:42Z) - ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。
ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。
専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文 参考訳(メタデータ) (2024-02-28T01:29:55Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。