論文の概要: ProteinEngine: Empower LLM with Domain Knowledge for Protein Engineering
- arxiv url: http://arxiv.org/abs/2405.06658v1
- Date: Sun, 21 Apr 2024 01:07:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 03:27:39.885326
- Title: ProteinEngine: Empower LLM with Domain Knowledge for Protein Engineering
- Title(参考訳): ProteinEngine: タンパク質工学のためのドメイン知識を備えたLLM
- Authors: Yiqing Shen, Outongyi Lv, Houying Zhu, Yu Guang Wang,
- Abstract要約: textscProteinEngineは、タンパク質工学における大規模言語モデルの能力を増幅することを目的とした、人間中心のプラットフォームである。
textscProteinEngineはLLMに3つの異なる役割を割り当て、効率的なタスクデリゲート、特別なタスク解決、結果の効果的なコミュニケーションを容易にする。
この発見は、タンパク質工学領域における将来の研究のために、TextscProteinEngineが切断されたツールを花嫁にする可能性を強調した。
- 参考スコア(独自算出の注目度): 5.474946062328154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have garnered considerable attention for their proficiency in tackling intricate tasks, particularly leveraging their capacities for zero-shot and in-context learning. However, their utility has been predominantly restricted to general tasks due to an absence of domain-specific knowledge. This constraint becomes particularly pertinent in the realm of protein engineering, where specialized expertise is required for tasks such as protein function prediction, protein evolution analysis, and protein design, with a level of specialization that existing LLMs cannot furnish. In response to this challenge, we introduce \textsc{ProteinEngine}, a human-centered platform aimed at amplifying the capabilities of LLMs in protein engineering by seamlessly integrating a comprehensive range of relevant tools, packages, and software via API calls. Uniquely, \textsc{ProteinEngine} assigns three distinct roles to LLMs, facilitating efficient task delegation, specialized task resolution, and effective communication of results. This design fosters high extensibility and promotes the smooth incorporation of new algorithms, models, and features for future development. Extensive user studies, involving participants from both the AI and protein engineering communities across academia and industry, consistently validate the superiority of \textsc{ProteinEngine} in augmenting the reliability and precision of deep learning in protein engineering tasks. Consequently, our findings highlight the potential of \textsc{ProteinEngine} to bride the disconnected tools for future research in the protein engineering domain.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複雑なタスクに対処する能力、特にゼロショットおよびインコンテキスト学習にその能力を活用する能力にかなりの注意を払っている。
しかし、それらのユーティリティはドメイン固有の知識が欠如しているため、一般的なタスクに限定されている。
この制約はタンパク質工学の領域において特に重要となり、タンパク質機能予測、タンパク質進化解析、タンパク質設計といったタスクに専門的な専門知識が必要とされる。
この課題に対応するために,我々は,タンパク質工学におけるLLMの機能を強化することを目的とした,人間中心のプラットフォームである‘textsc{ProteinEngine} を紹介した。
同様に、textsc{ProteinEngine} は、3つの異なる役割を LLM に割り当て、効率的なタスクデリゲーション、特別なタスク解決、結果の効果的なコミュニケーションを促進する。
この設計は、高い拡張性を育み、新しいアルゴリズム、モデル、そして将来の開発のための機能のスムーズな導入を促進する。
AIとタンパク質工学の両方のコミュニティの参加者が学界や業界で参加する広範なユーザスタディは、タンパク質工学タスクにおける深層学習の信頼性と精度を高めるために、‘textsc{ProteinEngine}’の優位性を一貫して検証している。
その結果, タンパク質工学領域における今後の研究のために, 切断されたツールを斬り上げるために, textsc{ProteinEngine} の可能性を浮き彫りにした。
関連論文リスト
- Long-context Protein Language Model [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。
ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。
そこで我々は,選択的構造化状態空間モデルから構築した代替のタンパク質LMアーキテクチャであるBiMamba-Sに基づくLC-PLMを提案する。
また、第2段階のトレーニングのために、タンパク質-タンパク質相互作用グラフの文脈化を行うLC-PLM-Gも導入した。
論文 参考訳(メタデータ) (2024-10-29T16:43:28Z) - Structure-Enhanced Protein Instruction Tuning: Towards General-Purpose Protein Understanding [43.811432723460534]
本稿では,このギャップを埋めるために,構造強化タンパク質インストラクションチューニング(SEPIT)フレームワークを紹介する。
提案手法では, 構造的知識を付加するため, 構造的知識を付加し, これらの拡張された pLM を大規模言語モデル (LLM) に接続し, タンパク質の理解を創出する。
我々はこれまでで最大かつ最も包括的なタンパク質命令データセットを構築し、汎用タンパク質理解モデルの訓練と評価を可能にした。
論文 参考訳(メタデータ) (2024-10-04T16:02:50Z) - AtomAgents: Alloy design and discovery through physics-aware multi-modal multi-agent artificial intelligence [0.0]
提案されている物理対応生成AIプラットフォームAtomAgentsは、大規模言語モデル(LLM)のインテリジェンスをシナジする
以上の結果から, 合金間におけるキー特性の正確な予測が可能となり, 先進金属合金の開発を推し進めるためには, 固溶合金が重要な役割を担っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-13T22:46:02Z) - ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。
ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。
専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文 参考訳(メタデータ) (2024-02-28T01:29:55Z) - Generative AI for Controllable Protein Sequence Design: A Survey [2.3502958706414905]
我々は、制御可能なタンパク質配列設計のための生成AIの最近の進歩を体系的にレビューする。
まず,タンパク質配列設計における基礎的課題を,制約の観点から概説する。
次に、各デザインタスクの詳細なレビューを行い、関連するアプリケーションについて議論します。
論文 参考訳(メタデータ) (2024-02-16T09:05:02Z) - ProtAgents: Protein discovery via large language model multi-agent
collaborations combining physics and machine learning [0.0]
ProtAgentsは、Large Language Models (LLMs)に基づいたde novoタンパク質設計のためのプラットフォームである。
異なる機能を持つ複数のAIエージェントは、動的環境内の複雑なタスクを協調的に処理する。
エージェントを設計する柔軟性と、動的LLMベースのマルチエージェント環境による自律的なコラボレーション能力は、大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-01-27T20:19:49Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - Unleashing the potential of prompt engineering in Large Language Models: a comprehensive review [1.6006550105523192]
大規模言語モデル(LLM)の能力を解き放つ上で,迅速なエンジニアリングが果たす重要な役割を概観する
自己整合性、思考の連鎖、そして生成された知識などの技術を含む、素早い工学の基礎的方法論と先進的な方法論の両方を検査する。
レビューはまた、AI能力の進歩におけるエンジニアリングの急進的な役割を反映し、将来の研究と応用のための構造化されたフレームワークを提供する。
論文 参考訳(メタデータ) (2023-10-23T09:15:18Z) - OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。
この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。
マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文 参考訳(メタデータ) (2023-04-10T03:55:35Z) - Technology Readiness Levels for AI & ML [79.22051549519989]
機械学習システムの開発は、現代的なツールで容易に実行できるが、プロセスは通常急いで、エンドツーエンドで実行される。
エンジニアリングシステムは、高品質で信頼性の高い結果の開発を効率化するために、明確に定義されたプロセスとテスト標準に従います。
我々は、機械学習の開発と展開のための実証されたシステムエンジニアリングアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-21T17:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。