論文の概要: ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training
- arxiv url: http://arxiv.org/abs/2403.07920v1
- Date: Wed, 28 Feb 2024 01:29:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 05:50:41.755324
- Title: ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training
- Title(参考訳): ProtLLM:タンパク・アズ・ワード事前試験によるインターリーブ型タンパク・ランゲージLDM
- Authors: Le Zhuo, Zewen Chi, Minghao Xu, Heyan Huang, Heqi Zheng, Conghui He, Xian-Ling Mao, Wentao Zhang,
- Abstract要約: 本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。
ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。
専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
- 参考スコア(独自算出の注目度): 82.37346937497136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose ProtLLM, a versatile cross-modal large language model (LLM) for both protein-centric and protein-language tasks. ProtLLM features a unique dynamic protein mounting mechanism, enabling it to handle complex inputs where the natural language text is interspersed with an arbitrary number of proteins. Besides, we propose the protein-as-word language modeling approach to train ProtLLM. By developing a specialized protein vocabulary, we equip the model with the capability to predict not just natural language but also proteins from a vast pool of candidates. Additionally, we construct a large-scale interleaved protein-text dataset, named InterPT, for pre-training. This dataset comprehensively encompasses both (1) structured data sources like protein annotations and (2) unstructured data sources like biological research papers, thereby endowing ProtLLM with crucial knowledge for understanding proteins. We evaluate ProtLLM on classic supervised protein-centric tasks and explore its novel protein-language applications. Experimental results demonstrate that ProtLLM not only achieves superior performance against protein-specialized baselines on protein-centric tasks but also induces zero-shot and in-context learning capabilities on protein-language tasks.
- Abstract(参考訳): ProtLLMは,タンパク質中心タスクとタンパク質言語タスクの両方を対象として,多機能な多言語多言語モデル(LLM)を提案する。
ProtLLMは独自の動的タンパク質実装機構を備えており、自然言語のテキストに任意の数のタンパク質が散在する複雑な入力を処理できる。
さらに,ProtLLMを学習するための単語間タンパク質モデリング手法を提案する。
専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
さらに, 大規模インターリーブ型タンパク質テキストデータセットであるInterPTを構築し, 事前学習を行った。
このデータセットは、(1)タンパク質アノテーションのような構造化データソースと(2)生物学的研究論文のような構造化されていないデータソースの両方を包括的に包括的に包括し、タンパク質を理解するための重要な知識を持つProtLLMを提供する。
本稿では,古典的なタンパク質中心タスクにおけるProtLLMを評価し,その新規なタンパク質言語応用を探求する。
実験により,ProtLLMはタンパク質中心タスクにおけるタンパク質特異的ベースラインに対して優れた性能を発揮するだけでなく,タンパク質言語タスクにおけるゼロショットおよびインコンテキスト学習能力も引き起こすことが示された。
関連論文リスト
- Long-context Protein Language Model [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。
ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。
そこで我々は,選択的構造化状態空間モデルから構築した代替のタンパク質LMアーキテクチャであるBiMamba-Sに基づくLC-PLMを提案する。
また、第2段階のトレーニングのために、タンパク質-タンパク質相互作用グラフの文脈化を行うLC-PLM-Gも導入した。
論文 参考訳(メタデータ) (2024-10-29T16:43:28Z) - A Fine-tuning Dataset and Benchmark for Large Language Models for Protein Understanding [10.652670673334486]
ProteinLMBenchは、LCMのタンパク質理解能力を評価するために、手動で検証された多重選択質問からなる最初のベンチマークデータセットである。
ProteinLMDatasetは、さらに自己教師付き事前トレーニングと教師付き微調整のために設計されたデータセットである。
インターンLM2-7BはProteinLMDatasetで事前訓練され微調整され、ProteinLMBenchでGPT-4を上回り、高い精度のスコアを得た。
論文 参考訳(メタデータ) (2024-06-08T18:11:30Z) - ProtT3: Protein-to-Text Generation for Text-based Protein Understanding [88.43323947543996]
言語モデル(LM)は、タンパク質のテキスト記述を理解するのに優れている。
タンパク質言語モデル(PLM)は、タンパク質データを理解し、高品質な表現に変換するが、テキストを処理するのに苦労する。
ProtT3は、テキストベースのタンパク質理解のための、タンパク質からテキストへの生成のためのフレームワークである。
論文 参考訳(メタデータ) (2024-05-21T08:06:13Z) - ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。
PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。
PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T05:32:42Z) - InstructProtein: Aligning Human and Protein Language via Knowledge
Instruction [38.46621806898224]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらしたが、タンパク質のような生物学的配列の理解に乏しい。
InstructProteinは、ヒト言語とタンパク質言語の両方で双方向に生成する機能を持つ。
InstructProteinは、テキストベースのタンパク質機能予測とシーケンス設計に向けた先駆的なステップとして機能する。
論文 参考訳(メタデータ) (2023-10-05T02:45:39Z) - A Text-guided Protein Design Framework [106.79061950107922]
本稿では,タンパク質設計のためのテキスト記述を利用するマルチモーダルフレームワークであるProteinDTを提案する。
タンパク質DTは以下の3つのステップから構成される:2つのモダリティの表現を整列するProteinCLAP、テキストモダリティからタンパク質表現を生成するファシリテーター、表現からタンパク質配列を生成するデコーダ。
本研究では,(1)テキスト誘導タンパク質生成における90%以上の精度,(2)ゼロショットテキスト誘導タンパク質編集タスクにおけるベストヒット率,(3)タンパク質特性予測ベンチマーク6項目中4項目における優れた性能の3つの課題に対するProteinDTの有効性を定量的に検証した。
論文 参考訳(メタデータ) (2023-02-09T12:59:16Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。