論文の概要: ProtChatGPT: Towards Understanding Proteins with Large Language Models
- arxiv url: http://arxiv.org/abs/2402.09649v1
- Date: Thu, 15 Feb 2024 01:22:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 17:29:57.493150
- Title: ProtChatGPT: Towards Understanding Proteins with Large Language Models
- Title(参考訳): ProtChatGPT:大規模言語モデルによるタンパク質の理解に向けて
- Authors: Chao Wang, Hehe Fan, Ruijie Quan, Yi Yang
- Abstract要約: 本稿では,タンパク質構造を自然言語で学習し理解することを目的としたProtChatGPTを紹介する。
ProtChatGPTを使えば、ユーザーはタンパク質をアップロードしたり、質問したり、対話的な会話をしたり、包括的な回答を得られる。
- 参考スコア(独自算出の注目度): 36.8288847635126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protein research is crucial in various fundamental disciplines, but
understanding their intricate structure-function relationships remains
challenging. Recent Large Language Models (LLMs) have made significant strides
in comprehending task-specific knowledge, suggesting the potential for
ChatGPT-like systems specialized in protein to facilitate basic research. In
this work, we introduce ProtChatGPT, which aims at learning and understanding
protein structures via natural languages. ProtChatGPT enables users to upload
proteins, ask questions, and engage in interactive conversations to produce
comprehensive answers. The system comprises protein encoders, a
Protein-Language Pertaining Transformer (PLP-former), a projection adapter, and
an LLM. The protein first undergoes protein encoders and PLP-former to produce
protein embeddings, which are then projected by the adapter to conform with the
LLM. The LLM finally combines user questions with projected embeddings to
generate informative answers. Experiments show that ProtChatGPT can produce
promising responses to proteins and their corresponding questions. We hope that
ProtChatGPT could form the basis for further exploration and application in
protein research. Code and our pre-trained model will be publicly available.
- Abstract(参考訳): タンパク質研究は様々な基本的な分野において重要であるが、複雑な構造と機能の関係を理解することは依然として困難である。
近年のLarge Language Models (LLM) はタスク固有の知識の理解に大きく貢献しており、基礎研究を促進するためにタンパク質に特化したChatGPTのようなシステムの可能性を示している。
本稿では,自然言語によるタンパク質構造の学習と理解を目的としたprotchatgptを紹介する。
ProtChatGPTを使えば、ユーザーはタンパク質をアップロードしたり、質問したり、対話的な会話をしたり、包括的な回答を得られる。
本システムは、タンパク質エンコーダ、タンパク質含有トランスフォーマー(PLP-former)、プロジェクションアダプタ、およびLLMを含む。
このタンパク質は、まずタンパク質エンコーダとPLP-formerを使用してタンパク質の埋め込みを生成し、LLMに適合するようにアダプターによって投影される。
LLMは最終的にユーザ質問と投影された埋め込みを組み合わせて、情報的な回答を生成する。
実験により、ProtChatGPTはタンパク質とその対応する質問に対する有望な応答を生成できることが示された。
ProtChatGPTがタンパク質研究のさらなる探索と応用の基礎になることを期待している。
コードとトレーニング済みのモデルは公開される予定だ。
関連論文リスト
- ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。
ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。
専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文 参考訳(メタデータ) (2024-02-28T01:29:55Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - A Text-guided Protein Design Framework [109.18157766856196]
本稿では,タンパク質設計のためのテキスト記述を利用するマルチモーダルフレームワークであるProteinDTを提案する。
タンパク質DTは以下の3つのステップから構成される:2つのモダリティの表現を整列するProteinCLAP、テキストモダリティからタンパク質表現を生成するファシリテーター、表現からタンパク質配列を生成するデコーダ。
本研究では,(1)テキスト誘導タンパク質生成における90%以上の精度,(2)ゼロショットテキスト誘導タンパク質編集タスク10件のベストヒット率,(3)タンパク質特性予測ベンチマーク6件中4件の優れた性能の3つの課題に対して,ProteinDTの有効性を定量的に検証した。
論文 参考訳(メタデータ) (2023-02-09T12:59:16Z) - Protein Representation Learning via Knowledge Enhanced Primary Structure
Modeling [47.719106806436926]
タンパク質表現学習のための知識探索型タンパク質自動エンコーダ(KeAP)を提案する。
KeAPはタンパク質表現学習のためのトークンレベルの知識グラフ探索を行う。
我々は、9つの下流アプリケーションにおいて、KeAPが従来よりも一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2023-01-30T18:33:15Z) - ProtST: Multi-Modality Learning of Protein Sequences and Biomedical
Texts [22.870765825298268]
タンパク質配列を拡大するProtSTデータセットを構築し,その機能や重要な特性をテキストで記述する。
事前学習中に、単調マスク予測、マルチモーダル表現アライメント、マルチモーダルマスク予測という3種類のタスクを設計する。
下流タスクでは、ProtSTは教師付き学習とゼロショット予測の両方を可能にする。
論文 参考訳(メタデータ) (2023-01-28T00:58:48Z) - A Survey on Protein Representation Learning: Retrospect and Prospect [42.38007308086495]
タンパク質表現学習は、巨大なタンパク質配列や構造から情報的知識を抽出する上で有望な研究課題である。
本稿では,タンパク質表現学習のモチベーションを紹介し,それらを汎用的かつ統一的な枠組みで定式化する。
次に、既存のPRL手法を、シーケンスベース、構造ベース、シーケンス構造共モデリングの3つの主要なカテゴリに分割する。
論文 参考訳(メタデータ) (2022-12-31T04:01:16Z) - Multi-modal Protein Knowledge Graph Construction and Applications [30.500520131560112]
タンパク質科学の知識グラフであるProteinKG65を作成します。
遺伝子オントロジーとUniprotナレッジベースを基盤として、アライメント記述やタンパク質配列を用いて様々な知識を変換する。
タンパク質KG65は主にタンパク質知識グラフを提供し、遺伝子オントロジーの知識をタンパク質の機能と構造予測にもたらす。
論文 参考訳(メタデータ) (2022-05-27T08:18:56Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - OntoProtein: Protein Pretraining With Gene Ontology Embedding [36.92674447484136]
GO(Gene Ontology)の構造をタンパク質事前学習モデルに活用する最初の汎用フレームワークであるOntoProteinを提案する。
我々はGOとその関連タンパク質からなる新しい大規模知識グラフを構築し、遺伝子アノテーションのテキストやタンパク質配列はグラフ内の全てのノードを記述する。
論文 参考訳(メタデータ) (2022-01-23T14:49:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。