論文の概要: Computational Protein Science in the Era of Large Language Models (LLMs)
- arxiv url: http://arxiv.org/abs/2501.10282v1
- Date: Fri, 17 Jan 2025 16:21:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 13:59:05.987682
- Title: Computational Protein Science in the Era of Large Language Models (LLMs)
- Title(参考訳): 大規模言語モデル(LLM)時代の計算タンパク質科学
- Authors: Wenqi Fan, Yi Zhou, Shijie Wang, Yuyao Yan, Hui Liu, Qian Zhao, Le Song, Qing Li,
- Abstract要約: 計算タンパク質科学(Computational protein science)は、タンパク質配列構造-機能パラダイムにおける知識を明らかにすること、および応用を開発することを目的としている。
最近、言語モデル (Language Models, PLM) は、前例のない言語処理と一般化能力のために、AIのマイルストーンとして登場した。
- 参考スコア(独自算出の注目度): 54.35488233989787
- License:
- Abstract: Considering the significance of proteins, computational protein science has always been a critical scientific field, dedicated to revealing knowledge and developing applications within the protein sequence-structure-function paradigm. In the last few decades, Artificial Intelligence (AI) has made significant impacts in computational protein science, leading to notable successes in specific protein modeling tasks. However, those previous AI models still meet limitations, such as the difficulty in comprehending the semantics of protein sequences, and the inability to generalize across a wide range of protein modeling tasks. Recently, LLMs have emerged as a milestone in AI due to their unprecedented language processing & generalization capability. They can promote comprehensive progress in fields rather than solving individual tasks. As a result, researchers have actively introduced LLM techniques in computational protein science, developing protein Language Models (pLMs) that skillfully grasp the foundational knowledge of proteins and can be effectively generalized to solve a diversity of sequence-structure-function reasoning problems. While witnessing prosperous developments, it's necessary to present a systematic overview of computational protein science empowered by LLM techniques. First, we summarize existing pLMs into categories based on their mastered protein knowledge, i.e., underlying sequence patterns, explicit structural and functional information, and external scientific languages. Second, we introduce the utilization and adaptation of pLMs, highlighting their remarkable achievements in promoting protein structure prediction, protein function prediction, and protein design studies. Then, we describe the practical application of pLMs in antibody design, enzyme design, and drug discovery. Finally, we specifically discuss the promising future directions in this fast-growing field.
- Abstract(参考訳): タンパク質の重要性を考えると、計算タンパク質科学は常に重要な科学分野であり、タンパク質配列-構造-機能パラダイムの中で知識を明らかにし、応用を開発することに専念してきた。
過去数十年間、人工知能(AI)は計算タンパク質科学に大きな影響を与え、特定のタンパク質モデリングタスクで顕著な成功を収めた。
しかし、これらの従来のAIモデルは、タンパク質配列のセマンティクスを理解するのが難しいことや、幅広いタンパク質モデリングタスクを一般化できないことなど、制限を満たす。
最近、LLMは前例のない言語処理と一般化能力のために、AIのマイルストーンとして登場した。
個々のタスクを解くのではなく、分野の包括的な進歩を促進することができる。
その結果、研究者らは、タンパク質の基本知識を巧みに把握し、配列構造-機能的推論問題の多様性を解決するために効果的に一般化できるタンパク質言語モデル(pLM)を開発し、計算タンパク質科学のLLM技術を導入してきた。
繁栄を目にする一方で、LLM技術によって強化された計算タンパク質科学の体系的な概要を提示する必要がある。
まず、既存のpLMを、そのマスターされたタンパク質の知識、すなわち、基礎となる配列パターン、明示的な構造的および機能的情報、および外部科学的言語に基づくカテゴリにまとめる。
第2に, タンパク質構造予測, タンパク質機能予測, タンパク質設計研究における卓越した成果を浮き彫りにして, pLMの利用と適応について紹介する。
次に, 抗体設計, 酵素設計, 薬物発見におけるpLMの実用的応用について述べる。
最後に、この急速に成長する分野における将来的な方向性について論じる。
関連論文リスト
- A Survey of Deep Learning Methods in Protein Bioinformatics and its Impact on Protein Design [3.5897534810405403]
ディープラーニングはコンピュータビジョンや自然言語処理などの分野において顕著な性能を示している。
近年、タンパク質配列のデータ豊富な領域に応用され、大きな成功を収めている。
ディープラーニングによって達成された性能改善は、タンパク質バイオインフォマティクスの分野での新たな可能性を開く。
論文 参考訳(メタデータ) (2025-01-02T05:21:34Z) - Long-context Protein Language Model [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。
ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。
そこで我々は,選択的構造化状態空間モデルから構築した代替のタンパク質LMアーキテクチャであるBiMamba-Sに基づくLC-PLMを提案する。
また、第2段階のトレーニングのために、タンパク質-タンパク質相互作用グラフの文脈化を行うLC-PLM-Gも導入した。
論文 参考訳(メタデータ) (2024-10-29T16:43:28Z) - Structure-Enhanced Protein Instruction Tuning: Towards General-Purpose Protein Understanding [43.811432723460534]
本稿では,このギャップを埋めるために,構造強化タンパク質インストラクションチューニング(SEPIT)フレームワークを紹介する。
提案手法では, 構造的知識を付加するため, 構造的知識を付加し, これらの拡張された pLM を大規模言語モデル (LLM) に接続し, タンパク質の理解を創出する。
我々はこれまでで最大かつ最も包括的なタンパク質命令データセットを構築し、汎用タンパク質理解モデルの訓練と評価を可能にした。
論文 参考訳(メタデータ) (2024-10-04T16:02:50Z) - GOProteinGNN: Leveraging Protein Knowledge Graphs for Protein Representation Learning [27.192150057715835]
GOProteinGNNは、タンパク質知識グラフ情報を統合することにより、タンパク質言語モデルを強化する新しいアーキテクチャである。
我々のアプローチは、個々のアミノ酸レベルとタンパク質レベルの両方で情報の統合を可能にし、包括的で効果的な学習プロセスを可能にします。
論文 参考訳(メタデータ) (2024-07-31T17:54:22Z) - ProtT3: Protein-to-Text Generation for Text-based Protein Understanding [88.43323947543996]
言語モデル(LM)は、タンパク質のテキスト記述を理解するのに優れている。
タンパク質言語モデル(PLM)は、タンパク質データを理解し、高品質な表現に変換するが、テキストを処理するのに苦労する。
ProtT3は、テキストベースのタンパク質理解のための、タンパク質からテキストへの生成のためのフレームワークである。
論文 参考訳(メタデータ) (2024-05-21T08:06:13Z) - ProteinEngine: Empower LLM with Domain Knowledge for Protein Engineering [5.474946062328154]
textscProteinEngineは、タンパク質工学における大規模言語モデルの能力を増幅することを目的とした、人間中心のプラットフォームである。
textscProteinEngineはLLMに3つの異なる役割を割り当て、効率的なタスクデリゲート、特別なタスク解決、結果の効果的なコミュニケーションを容易にする。
この発見は、タンパク質工学領域における将来の研究のために、TextscProteinEngineが切断されたツールを花嫁にする可能性を強調した。
論文 参考訳(メタデータ) (2024-04-21T01:07:33Z) - ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。
PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。
PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T05:32:42Z) - ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。
ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。
専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文 参考訳(メタデータ) (2024-02-28T01:29:55Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。