論文の概要: Prot2Chat: Protein LLM with Early Fusion of Sequence and Structure
- arxiv url: http://arxiv.org/abs/2502.06846v1
- Date: Fri, 07 Feb 2025 05:23:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 18:22:47.736954
- Title: Prot2Chat: Protein LLM with Early Fusion of Sequence and Structure
- Title(参考訳): Prot2Chat:初期の配列と構造を融合したタンパク質LLM
- Authors: Zhicong Wang, Zicheng Ma, Ziqiang Cao, Changlong Zhou, Jun Zhang, Yiqin Gao,
- Abstract要約: Prot2Chatは、マルチモーダルなタンパク質表現と自然言語を統一モジュールを通じて統合する新しいフレームワークである。
本モデルでは,タンパク質配列と構造情報を統一的にエンコードするタンパク質MPNNエンコーダと,クロスアテンション機構を持つタンパク質テキストアダプタを組み込んだ。
- 参考スコア(独自算出の注目度): 7.9473027178525975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proteins play a pivotal role in living organisms, yet understanding their functions presents significant challenges, including the limited flexibility of classification-based methods, the inability to effectively leverage spatial structural information, and the lack of systematic evaluation metrics for protein Q&A systems. To address these limitations, we propose Prot2Chat, a novel framework that integrates multimodal protein representations with natural language through a unified module, enabling large language model (LLM)-driven answer generation. Our model incorporates a modified ProteinMPNN encoder, which encodes protein sequence and structural information in a unified manner, a protein-text adapter with cross-attention mechanisms, and a LLaMA3 decoder. To optimize training efficiency, we freeze the encoder and employ LoRA techniques for the decoder. We conducted experiments on two datasets, both automated metrics and expert evaluations demonstrate the superior performance of our model. Furthermore, zero-shot prediction results highlight its strong generalization capabilities. This framework offers a promising solution for bridging protein domain knowledge with natural language understanding, paving the way for transformative advancements in protein-related research.
- Abstract(参考訳): タンパク質は生物において重要な役割を担うが、その機能を理解することは、分類に基づく手法の柔軟性の制限、空間構造情報を効果的に活用できないこと、タンパク質Q&Aシステムに対する体系的な評価指標の欠如など、重要な課題をもたらす。
これらの制約に対処するため,我々はProt2Chatを提案する。Prot2Chatは,多モーダルタンパク質表現と自然言語を統一モジュールで統合し,大規模言語モデル(LLM)による応答生成を可能にする新しいフレームワークである。
本モデルでは,タンパク質配列と構造情報を統一的にエンコードするタンパク質MPNNエンコーダ,クロスアテンション機構を持つタンパク質テキストアダプタ,LLaMA3デコーダを組み込んだ。
トレーニング効率を最適化するために、エンコーダを凍結し、デコーダにLoRA技術を採用する。
自動メトリクスとエキスパート評価の2つのデータセットで実験を行い、モデルの優れた性能を実証した。
さらに、ゼロショット予測の結果は、その強力な一般化能力を強調している。
このフレームワークは、タンパク質ドメインの知識を自然言語の理解でブリッジするための有望なソリューションを提供し、タンパク質関連研究における変革的進歩の道を開く。
関連論文リスト
- ProtTeX: Structure-In-Context Reasoning and Editing of Proteins with Large Language Models [8.520384176663423]
大規模言語モデルは分子科学の分野で顕著な進歩を遂げた。
タンパク質科学において、アミノ酸配列はLDMの唯一のトークン化剤として機能する。
本稿では,タンパク質配列,構造,テキスト情報を統一された離散空間にトークン化する新しいフレームワークであるProtを紹介する。
論文 参考訳(メタデータ) (2025-03-11T08:43:05Z) - Protein Large Language Models: A Comprehensive Survey [71.65899614084853]
タンパク質特異的な大規模言語モデル(Protein LLMs)は、より効率的なタンパク質構造予測、機能アノテーション、設計を可能にすることで、タンパク質科学に革命をもたらしている。
この作業は、アーキテクチャ、データセットのトレーニング、評価メトリクス、さまざまなアプリケーションをカバーする、Protein LLMの最初の包括的な概要を提供する。
論文 参考訳(メタデータ) (2025-02-21T19:22:10Z) - Computational Protein Science in the Era of Large Language Models (LLMs) [54.35488233989787]
計算タンパク質科学(Computational protein science)は、タンパク質配列構造-機能パラダイムにおける知識を明らかにすること、および応用を開発することを目的としている。
最近、言語モデル (Language Models, PLM) は、前例のない言語処理と一般化能力のために、AIのマイルストーンとして登場した。
論文 参考訳(メタデータ) (2025-01-17T16:21:18Z) - EvoLlama: Enhancing LLMs' Understanding of Proteins via Multimodal Structure and Sequence Representations [28.298740080002077]
タンパク質を理解するための現在の大規模言語モデル(LLM)は、主にアミノ酸配列をテキストモダリティとして扱う。
EvoLlamaは構造ベースのエンコーダ、配列ベースのタンパク質エンコーダ、およびタンパク質理解のためのLLMを接続するフレームワークである。
実験の結果,EvoLlamaのタンパク質理解能力は著しく向上した。
論文 参考訳(メタデータ) (2024-12-16T10:01:33Z) - Long-context Protein Language Modeling Using Bidirectional Mamba with Shared Projection Layers [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。
ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。
そこで本研究では,選択的構造化状態空間モデルに基づく代替タンパク質であるBiMamba-Sに基づくLC-PLMを提案する。
論文 参考訳(メタデータ) (2024-10-29T16:43:28Z) - Structure-Enhanced Protein Instruction Tuning: Towards General-Purpose Protein Understanding [43.811432723460534]
本稿では,このギャップを埋めるために,構造強化タンパク質インストラクションチューニング(SEPIT)フレームワークを紹介する。
提案手法では, 構造的知識を付加するため, 構造的知識を付加し, これらの拡張された pLM を大規模言語モデル (LLM) に接続し, タンパク質の理解を創出する。
我々はこれまでで最大かつ最も包括的なタンパク質命令データセットを構築し、汎用タンパク質理解モデルの訓練と評価を可能にした。
論文 参考訳(メタデータ) (2024-10-04T16:02:50Z) - ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。
ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。
専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文 参考訳(メタデータ) (2024-02-28T01:29:55Z) - Endowing Protein Language Models with Structural Knowledge [5.587293092389789]
本稿では,タンパク質構造データを統合することにより,タンパク質言語モデルを強化する新しいフレームワークを提案する。
PST(Protein Structure Transformer)と呼ばれる精製モデルは、小さなタンパク質構造データベース上でさらに事前訓練されている。
PSTは、タンパク質配列の最先端基盤モデルであるESM-2を一貫して上回り、タンパク質機能予測の新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-01-26T12:47:54Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [74.64101864289572]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Progressive Multi-Modality Learning for Inverse Protein Folding [47.095862120116976]
マルチモーダルトランスファー学習を利用するMMDesignと呼ばれる新しいタンパク質設計パラダイムを提案する。
MMDesignは、事前訓練された構造モジュールと事前訓練されたコンテキストモジュールを組み合わせる最初のフレームワークである。
実験結果は、小さなデータセットでのみトレーニングした結果、MMDesignが様々な公開ベンチマークのベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-12-11T10:59:23Z) - Prot2Text: Multimodal Protein's Function Generation with GNNs and Transformers [18.498779242323582]
本稿では,タンパク質の機能を自由テキスト形式で予測する新しいアプローチであるProt2Textを提案する。
エンコーダ・デコーダフレームワークでグラフニューラルネットワーク(GNN)とLarge Language Models(LLM)を組み合わせることにより,本モデルは多種多様なデータ型を効果的に統合する。
論文 参考訳(メタデータ) (2023-07-25T09:35:43Z) - A Systematic Study of Joint Representation Learning on Protein Sequences
and Structures [38.94729758958265]
効果的なタンパク質表現の学習は、タンパク質機能の予測のような生物学の様々なタスクにおいて重要である。
近年, タンパク質言語モデル(PLM)に基づく配列表現学習法は, 配列ベースタスクでは優れているが, タンパク質構造に関わるタスクへの直接適応は依然として困難である。
本研究は、最先端のPLMと異なる構造エンコーダを統合することで、結合タンパク質表現学習の包括的研究を行う。
論文 参考訳(メタデータ) (2023-03-11T01:24:10Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。