論文の概要: Exploring the Protein Sequence Space with Global Generative Models
- arxiv url: http://arxiv.org/abs/2305.01941v1
- Date: Wed, 3 May 2023 07:45:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 15:41:57.469364
- Title: Exploring the Protein Sequence Space with Global Generative Models
- Title(参考訳): 地球生成モデルによるタンパク質配列空間の探索
- Authors: Sergio Romero-Romero, Sebastian Lindner, Noelia Ferruz
- Abstract要約: 言語モデルは、人間の言語を処理、翻訳、生成する際、例外的な能力を示してきた。
タンパク質生成モデルは、タンパク質の埋め込み、新しいタンパク質の生成、第三次構造の予測に利用されている。
本章では,タンパク質生成モデルの利用の概要,1)新規人工タンパク質の設計のための言語モデル,2)非トランスフォーマーアーキテクチャを用いた研究,3)有向進化アプローチへの応用について概説する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in specialized large-scale architectures for training
image and language have profoundly impacted the field of computer vision and
natural language processing (NLP). Language models, such as the recent ChatGPT
and GPT4 have demonstrated exceptional capabilities in processing, translating,
and generating human languages. These breakthroughs have also been reflected in
protein research, leading to the rapid development of numerous new methods in a
short time, with unprecedented performance. Language models, in particular,
have seen widespread use in protein research, as they have been utilized to
embed proteins, generate novel ones, and predict tertiary structures. In this
book chapter, we provide an overview of the use of protein generative models,
reviewing 1) language models for the design of novel artificial proteins, 2)
works that use non-Transformer architectures, and 3) applications in directed
evolution approaches.
- Abstract(参考訳): 画像と言語を訓練するための大規模アーキテクチャの進歩は、コンピュータビジョンと自然言語処理(NLP)の分野に大きな影響を与えている。
最近のChatGPTやGPT4のような言語モデルは、人間の言語を処理、翻訳、生成する際、例外的な能力を示している。
これらのブレークスルーはタンパク質研究にも反映され、多くの新しい手法が短期間で急速に発展し、前例のない性能を誇った。
特に言語モデルはタンパク質の研究で広く使われており、タンパク質の埋め込み、新しいタンパク質の生成、第三紀の構造の予測に使われている。
本章では,タンパク質生成モデルの利用について概説し,概説する。
1)新規人工タンパク質の設計のための言語モデル
2)非トランスフォーマーアーキテクチャを使用する作業,及び
3) 有向進化的アプローチにおける応用
関連論文リスト
- ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。
ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。
専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文 参考訳(メタデータ) (2024-02-28T01:29:55Z) - Endowing Protein Language Models with Structural Knowledge [5.587293092389789]
本稿では,タンパク質構造データを統合することにより,タンパク質言語モデルを強化する新しいフレームワークを提案する。
PST(Protein Structure Transformer)と呼ばれる精製モデルは、小さなタンパク質構造データベース上でさらに事前訓練されている。
PSTは、タンパク質配列の最先端基盤モデルであるESM-2を一貫して上回り、タンパク質機能予測の新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-01-26T12:47:54Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Generative artificial intelligence for de novo protein design [1.2021565114959365]
生成的アーキテクチャは、新しいが現実的なタンパク質を生成するには適しているようだ。
設計プロトコルは20%近い実験的な成功率を達成した。
広範な進歩にもかかわらず、フィールド全体の課題は明らかである。
論文 参考訳(メタデータ) (2023-10-15T00:02:22Z) - InstructProtein: Aligning Human and Protein Language via Knowledge
Instruction [38.46621806898224]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらしたが、タンパク質のような生物学的配列の理解に乏しい。
InstructProteinは、ヒト言語とタンパク質言語の両方で双方向に生成する機能を持つ。
InstructProteinは、テキストベースのタンパク質機能予測とシーケンス設計に向けた先駆的なステップとして機能する。
論文 参考訳(メタデータ) (2023-10-05T02:45:39Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - Integration of Pre-trained Protein Language Models into Geometric Deep
Learning Networks [68.90692290665648]
我々は、タンパク質言語モデルから学んだ知識を、いくつかの最先端の幾何学的ネットワークに統合する。
以上の結果から,ベースラインを20%上回る総合的な改善が見られた。
強い証拠は、タンパク質言語モデルの知識を取り入れることで、幾何学的ネットワークの能力が著しく向上することを示している。
論文 参考訳(メタデータ) (2022-12-07T04:04:04Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Protein sequence-to-structure learning: Is this the end(-to-end
revolution)? [0.8399688944263843]
CASP14では、ディープラーニングにより、予想外のレベルがほぼ実験精度に達するまで、フィールドが強化された。
新しいアプローチには、(i)幾何学的学習、すなわち、
グラフ、3d voronoi tessellation、point cloudsといった表現について学ぶ。
我々は,過去2年間に開発され,CASP14で広く利用されている新しいディープラーニングアプローチの概要と展望について述べる。
論文 参考訳(メタデータ) (2021-05-16T10:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。