論文の概要: Protein Large Language Models: A Comprehensive Survey
- arxiv url: http://arxiv.org/abs/2502.17504v1
- Date: Fri, 21 Feb 2025 19:22:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:23:35.169967
- Title: Protein Large Language Models: A Comprehensive Survey
- Title(参考訳): タンパク質の大規模言語モデル:包括的調査
- Authors: Yijia Xiao, Wanjia Zhao, Junkai Zhang, Yiqiao Jin, Han Zhang, Zhicheng Ren, Renliang Sun, Haixin Wang, Guancheng Wan, Pan Lu, Xiao Luo, Yu Zhang, James Zou, Yizhou Sun, Wei Wang,
- Abstract要約: タンパク質特異的な大規模言語モデル(Protein LLMs)は、より効率的なタンパク質構造予測、機能アノテーション、設計を可能にすることで、タンパク質科学に革命をもたらしている。
この作業は、アーキテクチャ、データセットのトレーニング、評価メトリクス、さまざまなアプリケーションをカバーする、Protein LLMの最初の包括的な概要を提供する。
- 参考スコア(独自算出の注目度): 71.65899614084853
- License:
- Abstract: Protein-specific large language models (Protein LLMs) are revolutionizing protein science by enabling more efficient protein structure prediction, function annotation, and design. While existing surveys focus on specific aspects or applications, this work provides the first comprehensive overview of Protein LLMs, covering their architectures, training datasets, evaluation metrics, and diverse applications. Through a systematic analysis of over 100 articles, we propose a structured taxonomy of state-of-the-art Protein LLMs, analyze how they leverage large-scale protein sequence data for improved accuracy, and explore their potential in advancing protein engineering and biomedical research. Additionally, we discuss key challenges and future directions, positioning Protein LLMs as essential tools for scientific discovery in protein science. Resources are maintained at https://github.com/Yijia-Xiao/Protein-LLM-Survey.
- Abstract(参考訳): タンパク質特異的な大規模言語モデル(Protein LLM)は、より効率的なタンパク質構造予測、機能アノテーション、設計を可能にすることで、タンパク質科学に革命をもたらしている。
既存の調査は、特定の側面やアプリケーションに焦点を当てているが、この研究は、アーキテクチャ、データセットのトレーニング、評価メトリクス、多様なアプリケーションをカバーする、Protein LLMの最初の包括的な概要を提供する。
100以上の論文の体系的な分析を通じて、最先端のタンパク質LLMの構造的分類法を提案し、それらの大規模タンパク質配列データをどのように活用して精度を向上させるかを分析し、タンパク質工学および生物医学研究の進展におけるその可能性を探る。
さらに,タンパク質LLMをタンパク質科学の科学的発見に欠かせないツールとして位置づける上で,重要な課題と今後の方向性について論じる。
リソースはhttps://github.com/Yijia-Xiao/Protein-LLM-Surveyで管理されている。
関連論文リスト
- Computational Protein Science in the Era of Large Language Models (LLMs) [54.35488233989787]
計算タンパク質科学(Computational protein science)は、タンパク質配列構造-機能パラダイムにおける知識を明らかにすること、および応用を開発することを目的としている。
最近、言語モデル (Language Models, PLM) は、前例のない言語処理と一般化能力のために、AIのマイルストーンとして登場した。
論文 参考訳(メタデータ) (2025-01-17T16:21:18Z) - EvoLlama: Enhancing LLMs' Understanding of Proteins via Multimodal Structure and Sequence Representations [28.298740080002077]
タンパク質を理解するための現在の大規模言語モデル(LLM)は、主にアミノ酸配列をテキストモダリティとして扱う。
EvoLlamaは構造ベースのエンコーダ、配列ベースのタンパク質エンコーダ、およびタンパク質理解のためのLLMを接続するフレームワークである。
実験の結果,EvoLlamaのタンパク質理解能力は著しく向上した。
論文 参考訳(メタデータ) (2024-12-16T10:01:33Z) - Structure-Enhanced Protein Instruction Tuning: Towards General-Purpose Protein Understanding [43.811432723460534]
本稿では,このギャップを埋めるために,構造強化タンパク質インストラクションチューニング(SEPIT)フレームワークを紹介する。
提案手法では, 構造的知識を付加するため, 構造的知識を付加し, これらの拡張された pLM を大規模言語モデル (LLM) に接続し, タンパク質の理解を創出する。
我々はこれまでで最大かつ最も包括的なタンパク質命令データセットを構築し、汎用タンパク質理解モデルの訓練と評価を可能にした。
論文 参考訳(メタデータ) (2024-10-04T16:02:50Z) - ProteinGPT: Multimodal LLM for Protein Property Prediction and Structure Understanding [22.610060675922536]
本稿では,最先端のマルチモーダルタンパク質チャットシステムであるProteinGPTを紹介する。
タンパク質GPTは、タンパク質配列と構造エンコーダを線形射影層とシームレスに統合し、正確な表現適応を行う。
注釈付き132,092タンパク質の大規模データセットをトレーニングし、GPT-4oを用いて命令調整プロセスを最適化する。
実験により、タンパク質GPTはタンパク質とその対応する質問に対する有望な応答を生成できることが示された。
論文 参考訳(メタデータ) (2024-08-21T06:16:22Z) - ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。
ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。
専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文 参考訳(メタデータ) (2024-02-28T01:29:55Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。