Fugu-MT 論文翻訳(概要): Structure-Enhanced Protein Instruction Tuning: Towards General-Purpose Protein Understanding

論文の概要: Structure-Enhanced Protein Instruction Tuning: Towards General-Purpose Protein Understanding

arxiv url: http://arxiv.org/abs/2410.03553v2
Date: Wed, 9 Oct 2024 10:49:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 21:29:56.819442
Title: Structure-Enhanced Protein Instruction Tuning: Towards General-Purpose Protein Understanding
Title（参考訳）: 構造強化タンパク質インストラクションチューニング : 汎用タンパク質理解に向けて
Authors: Wei Wu, Chao Wang, Liyi Chen, Mingze Yin, Yiheng Zhu, Kun Fu, Jieping Ye, Hui Xiong, Zheng Wang,
Abstract要約: 本稿では,このギャップを埋めるために,構造強化タンパク質インストラクションチューニング(SEPIT)フレームワークを紹介する。提案手法では, 構造的知識を付加するため, 構造的知識を付加し, これらの拡張された pLM を大規模言語モデル (LLM) に接続し, タンパク質の理解を創出する。我々はこれまでで最大かつ最も包括的なタンパク質命令データセットを構築し、汎用タンパク質理解モデルの訓練と評価を可能にした。
参考スコア（独自算出の注目度）: 43.811432723460534
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Proteins, as essential biomolecules, play a central role in biological processes, including metabolic reactions and DNA replication. Accurate prediction of their properties and functions is crucial in biological applications. Recent development of protein language models (pLMs) with supervised fine tuning provides a promising solution to this problem. However, the fine-tuned model is tailored for particular downstream prediction task, and achieving general-purpose protein understanding remains a challenge. In this paper, we introduce Structure-Enhanced Protein Instruction Tuning (SEPIT) framework to bridge this gap. Our approach integrates a noval structure-aware module into pLMs to inform them with structural knowledge, and then connects these enhanced pLMs to large language models (LLMs) to generate understanding of proteins. In this framework, we propose a novel two-stage instruction tuning pipeline that first establishes a basic understanding of proteins through caption-based instructions and then refines this understanding using a mixture of experts (MoEs) to learn more complex properties and functional information with the same amount of activated parameters. Moreover, we construct the largest and most comprehensive protein instruction dataset to date, which allows us to train and evaluate the general-purpose protein understanding model. Extensive experimental results on open-ended generation and closed-set answer tasks demonstrate the superior performance of SEPIT over both closed-source general LLMs and open-source LLMs trained with protein knowledge.
Abstract（参考訳）: 重要な生体分子であるタンパク質は、代謝反応やDNA複製を含む生物学的過程において中心的な役割を果たす。生物学的応用において、それらの性質と機能の正確な予測が重要である。近年,タンパク質言語モデル (pLM) の開発が進められている。しかし、微調整モデルは特定の下流予測タスクに合わせて調整されており、汎用的なタンパク質理解を達成することは依然として課題である。本稿では,このギャップを埋めるために,構造強化タンパク質インストラクションチューニング(SEPIT)フレームワークを提案する。提案手法では, 構造的知識を付加し, これらの拡張されたpLMを大規模言語モデル (LLM) に接続し, タンパク質の理解を促進する。本稿では,まず,タンパク質の基本的理解をキャプションベースで確立し,その理解を専門家(MoEs)の混合で洗練し,より複雑な特性や機能情報を同じ量の活性化パラメータで学習する,新しい2段階のインストラクションチューニングパイプラインを提案する。さらに,これまでで最大かつ最も包括的なタンパク質解析データセットを構築し,汎用タンパク質理解モデルの訓練と評価を可能にした。オープンエンド生成およびクローズドセット解答タスクに関する広範囲な実験結果から,タンパク質知識を訓練した一般LCMとオープンソースLSMの両方に対して,SEPITの優れた性能を示す。

関連論文リスト

Structure-Aligned Protein Language Model [42.03167740260325]
膨大なタンパク質配列データベース上で事前訓練されたタンパク質言語モデル (pLM) は、下流の様々なタスクで優れているが、多くの生物学的応用に必要な構造的知識は欠如している。我々は、事前学習されたタンパク質グラフニューラルネットワーク(pGNN)から、潜在レベルのコントラスト学習タスクを通じて、pLMに構造的洞察を統合する。この課題は、pLMの残基を複数のタンパク質にまたがるpGNNの残基と整合させ、タンパク質間構造知識でpLMを豊かにする。
論文参考訳（メタデータ） (2025-05-22T16:56:12Z)
ProtTeX: Structure-In-Context Reasoning and Editing of Proteins with Large Language Models [8.520384176663423]
大規模言語モデルは分子科学の分野で顕著な進歩を遂げた。タンパク質科学において、アミノ酸配列はLDMの唯一のトークン化剤として機能する。本稿では,タンパク質配列,構造,テキスト情報を統一された離散空間にトークン化する新しいフレームワークであるProtを紹介する。
論文参考訳（メタデータ） (2025-03-11T08:43:05Z)
Protein Large Language Models: A Comprehensive Survey [71.65899614084853]
タンパク質特異的な大規模言語モデル(Protein LLMs)は、より効率的なタンパク質構造予測、機能アノテーション、設計を可能にすることで、タンパク質科学に革命をもたらしている。この作業は、アーキテクチャ、データセットのトレーニング、評価メトリクス、さまざまなアプリケーションをカバーする、Protein LLMの最初の包括的な概要を提供する。
論文参考訳（メタデータ） (2025-02-21T19:22:10Z)
Computational Protein Science in the Era of Large Language Models (LLMs) [54.35488233989787]
計算タンパク質科学(Computational protein science)は、タンパク質配列構造-機能パラダイムにおける知識を明らかにすること、および応用を開発することを目的としている。最近、言語モデル (Language Models, PLM) は、前例のない言語処理と一般化能力のために、AIのマイルストーンとして登場した。
論文参考訳（メタデータ） (2025-01-17T16:21:18Z)
EvoLlama: Enhancing LLMs' Understanding of Proteins via Multimodal Structure and Sequence Representations [28.298740080002077]
タンパク質を理解するための現在の大規模言語モデル(LLM)は、主にアミノ酸配列をテキストモダリティとして扱う。 EvoLlamaは構造ベースのエンコーダ、配列ベースのタンパク質エンコーダ、およびタンパク質理解のためのLLMを接続するフレームワークである。実験の結果,EvoLlamaのタンパク質理解能力は著しく向上した。
論文参考訳（メタデータ） (2024-12-16T10:01:33Z)
Long-context Protein Language Model [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。そこで我々は,選択的構造化状態空間モデルから構築した代替のタンパク質LMアーキテクチャであるBiMamba-Sに基づくLC-PLMを提案する。また、第2段階のトレーニングのために、タンパク質-タンパク質相互作用グラフの文脈化を行うLC-PLM-Gも導入した。
論文参考訳（メタデータ） (2024-10-29T16:43:28Z)
ProteinGPT: Multimodal LLM for Protein Property Prediction and Structure Understanding [22.610060675922536]
本稿では,最先端のマルチモーダルタンパク質チャットシステムであるProteinGPTを紹介する。タンパク質GPTは、タンパク質配列と構造エンコーダを線形射影層とシームレスに統合し、正確な表現適応を行う。注釈付き132,092タンパク質の大規模データセットをトレーニングし、GPT-4oを用いて命令調整プロセスを最適化する。実験により、タンパク質GPTはタンパク質とその対応する質問に対する有望な応答を生成できることが示された。
論文参考訳（メタデータ） (2024-08-21T06:16:22Z)
ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。 PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。 PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文参考訳（メタデータ） (2024-03-30T05:32:42Z)
ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。 ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文参考訳（メタデータ） (2024-02-28T01:29:55Z)
Endowing Protein Language Models with Structural Knowledge [5.587293092389789]
本稿では,タンパク質構造データを統合することにより,タンパク質言語モデルを強化する新しいフレームワークを提案する。 PST(Protein Structure Transformer)と呼ばれる精製モデルは、小さなタンパク質構造データベース上でさらに事前訓練されている。 PSTは、タンパク質配列の最先端基盤モデルであるESM-2を一貫して上回り、タンパク質機能予測の新しいベンチマークを設定している。
論文参考訳（メタデータ） (2024-01-26T12:47:54Z)
CCPL: Cross-modal Contrastive Protein Learning [47.095862120116976]
我々は、新しい教師なしタンパク質構造表現事前学習法、クロスモーダルコントラスト型タンパク質学習(CCPL)を導入する。 CCPLは堅牢なタンパク質言語モデルを活用し、教師なしのコントラストアライメントを用いて構造学習を強化する。さまざまなベンチマークでモデルを評価し,フレームワークの優位性を実証した。
論文参考訳（メタデータ） (2023-03-19T08:19:10Z)
Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。 pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文参考訳（メタデータ） (2023-02-03T10:49:52Z)
Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文参考訳（メタデータ） (2022-04-06T02:18:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。