論文の概要: Multi-Modal CLIP-Informed Protein Editing
- arxiv url: http://arxiv.org/abs/2407.19296v1
- Date: Sat, 27 Jul 2024 16:41:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 18:51:52.374688
- Title: Multi-Modal CLIP-Informed Protein Editing
- Title(参考訳): マルチモーダルCLIPインフォームドタンパク質編集
- Authors: Mingze Yin, Hanjing Zhou, Yiheng Zhu, Miao Lin, Yixuan Wu, Jialu Wu, Hongxia Xu, Chang-Yu Hsieh, Tingjun Hou, Jintai Chen, Jian Wu,
- Abstract要約: マルチモーダル学習による効率的なCLIPインフォームドタンパク質編集のためのProtETと呼ばれる新しい手法を提案する。
我々のアプローチは2つの段階から構成される: 事前学習段階において、コントラスト学習は2つの大きな言語モデル(LLM)によって符号化されたタンパク質-バイオテキスト表現を整列する。
タンパク質編集段階では、対象タンパク質配列を生成するための最終編集条件として、命令テキストと元のタンパク質配列の編集から融合した特徴がある。
- 参考スコア(独自算出の注目度): 8.927362207499181
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proteins govern most biological functions essential for life, but achieving controllable protein discovery and optimization remains challenging. Recently, machine learning-assisted protein editing (MLPE) has shown promise in accelerating optimization cycles and reducing experimental workloads. However, current methods struggle with the vast combinatorial space of potential protein edits and cannot explicitly conduct protein editing using biotext instructions, limiting their interactivity with human feedback. To fill these gaps, we propose a novel method called ProtET for efficient CLIP-informed protein editing through multi-modality learning. Our approach comprises two stages: in the pretraining stage, contrastive learning aligns protein-biotext representations encoded by two large language models (LLMs), respectively. Subsequently, during the protein editing stage, the fused features from editing instruction texts and original protein sequences serve as the final editing condition for generating target protein sequences. Comprehensive experiments demonstrated the superiority of ProtET in editing proteins to enhance human-expected functionality across multiple attribute domains, including enzyme catalytic activity, protein stability and antibody specific binding ability. And ProtET improves the state-of-the-art results by a large margin, leading to significant stability improvements of 16.67% and 16.90%. This capability positions ProtET to advance real-world artificial protein editing, potentially addressing unmet academic, industrial, and clinical needs.
- Abstract(参考訳): タンパク質は生命に不可欠なほとんどの生物学的機能を支配しているが、制御可能なタンパク質の発見と最適化は依然として困難である。
近年、機械学習支援タンパク質編集(MLPE)は最適化サイクルの加速と実験負荷の削減を約束している。
しかし、現在の手法は、潜在的なタンパク質編集の膨大な組み合わせ空間に苦しむとともに、バイオテキスト命令を用いてタンパク質編集を明示的に行うことができず、人間のフィードバックとの相互作用を制限している。
これらのギャップを埋めるために,マルチモーダリティ学習によるCLIPインフォームドタンパク質の効率的な編集のためのProtETという新しい手法を提案する。
本手法は,2つの大規模言語モデル (LLM) で符号化されたタンパク質-バイオテキスト表現を,事前学習段階において比較学習により整合させる。
その後、タンパク質編集段階において、対象タンパク質配列を生成するための最終編集条件として、命令テキストと原タンパク質配列の編集から融合した特徴を果たす。
包括的な実験は、タンパク質の編集において、酵素触媒活性、タンパク質安定性、抗体特異的結合能など、複数の属性領域にまたがる人為的な機能を強化するために、ProtETの優位性を実証した。
そして、ProtETは最先端の結果を大きなマージンで改善し、16.67%と16.90%の大幅な安定性改善をもたらした。
この能力により、ProtETは実際の人工タンパク質編集を推進し、学術的、工業的、臨床的なニーズに対処する可能性がある。
関連論文リスト
- Long-context Protein Language Model [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。
ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。
そこで我々は,選択的構造化状態空間モデルから構築した代替のタンパク質LMアーキテクチャであるBiMamba-Sに基づくLC-PLMを提案する。
また、第2段階のトレーニングのために、タンパク質-タンパク質相互作用グラフの文脈化を行うLC-PLM-Gも導入した。
論文 参考訳(メタデータ) (2024-10-29T16:43:28Z) - TourSynbio: A Multi-Modal Large Model and Agent Framework to Bridge Text and Protein Sequences for Protein Engineering [21.963312554645924]
TourSynbio-7Bは、外部のタンパク質エンコーダを使わずにタンパク質工学タスクのために設計された大型モデルである。
TourSynbio-Agentは、突然変異解析、逆フォールディング、タンパク質の折り畳み、可視化など、さまざまなタンパク質工学タスクを実行することができるフレームワークである。
論文 参考訳(メタデータ) (2024-08-27T13:36:00Z) - ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。
PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。
PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T05:32:42Z) - Enhancing Protein Predictive Models via Proteins Data Augmentation: A
Benchmark and New Directions [58.819567030843025]
本稿では,これまで画像やテキストに用いたデータ拡張手法をタンパク質に拡張し,タンパク質関連タスクでこれらの手法をベンチマークする。
本稿では,2つの新規な意味レベルタンパク質増強法,すなわち,統合的グラディエント置換法とバック翻訳置換法を提案する。
最後に、拡張および提案された拡張を拡張プールに統合し、シンプルで効果的なフレームワークであるAutomated Protein Augmentation (APA)を提案する。
論文 参考訳(メタデータ) (2024-03-01T07:58:29Z) - ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。
ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。
専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文 参考訳(メタデータ) (2024-02-28T01:29:55Z) - Efficiently Predicting Mutational Effect on Homologous Proteins by Evolution Encoding [7.067145619709089]
EvolMPNNは進化を意識したタンパク質の埋め込みを学習するための効率的なモデルである。
我々のモデルは最先端の手法よりも最大6.4%向上し,36倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-02-20T23:06:21Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Multi-level Protein Representation Learning for Blind Mutational Effect
Prediction [5.207307163958806]
本稿では,タンパク質構造解析のためのシーケンシャルおよび幾何学的アナライザをカスケードする,新しい事前学習フレームワークを提案する。
野生型タンパク質の自然選択をシミュレートすることにより、所望の形質に対する突然変異方向を誘導する。
提案手法は,多種多様な効果予測タスクに対して,パブリックデータベースと2つの新しいデータベースを用いて評価する。
論文 参考訳(メタデータ) (2023-06-08T03:00:50Z) - A Text-guided Protein Design Framework [106.79061950107922]
本稿では,タンパク質設計のためのテキスト記述を利用するマルチモーダルフレームワークであるProteinDTを提案する。
タンパク質DTは以下の3つのステップから構成される:2つのモダリティの表現を整列するProteinCLAP、テキストモダリティからタンパク質表現を生成するファシリテーター、表現からタンパク質配列を生成するデコーダ。
本研究では,(1)テキスト誘導タンパク質生成における90%以上の精度,(2)ゼロショットテキスト誘導タンパク質編集タスクにおけるベストヒット率,(3)タンパク質特性予測ベンチマーク6項目中4項目における優れた性能の3つの課題に対するProteinDTの有効性を定量的に検証した。
論文 参考訳(メタデータ) (2023-02-09T12:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。