論文の概要: InstructBioMol: Advancing Biomolecule Understanding and Design Following Human Instructions
- arxiv url: http://arxiv.org/abs/2410.07919v1
- Date: Thu, 10 Oct 2024 13:45:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 14:06:15.960668
- Title: InstructBioMol: Advancing Biomolecule Understanding and Design Following Human Instructions
- Title(参考訳): InstructBioMol:人間の指示に従って生体分子の理解と設計を促進する
- Authors: Xiang Zhuang, Keyan Ding, Tianwen Lyu, Yinuo Jiang, Xiaotong Li, Zhuoyi Xiang, Zeyuan Wang, Ming Qin, Kehua Feng, Jike Wang, Qiang Zhang, Huajun Chen,
- Abstract要約: InstructBioMolは自然言語と生体分子を橋渡しするように設計されている。
マルチモーダルな生体分子を入力として統合し、研究者が自然言語で設計目標を明確にすることができる。
結合親和性は10%向上し、ESPスコア70.4に達する酵素を設計することができる。
- 参考スコア(独自算出の注目度): 32.38318676313486
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Understanding and designing biomolecules, such as proteins and small molecules, is central to advancing drug discovery, synthetic biology, and enzyme engineering. Recent breakthroughs in Artificial Intelligence (AI) have revolutionized biomolecular research, achieving remarkable accuracy in biomolecular prediction and design. However, a critical gap remains between AI's computational power and researchers' intuition, using natural language to align molecular complexity with human intentions. Large Language Models (LLMs) have shown potential to interpret human intentions, yet their application to biomolecular research remains nascent due to challenges including specialized knowledge requirements, multimodal data integration, and semantic alignment between natural language and biomolecules. To address these limitations, we present InstructBioMol, a novel LLM designed to bridge natural language and biomolecules through a comprehensive any-to-any alignment of natural language, molecules, and proteins. This model can integrate multimodal biomolecules as input, and enable researchers to articulate design goals in natural language, providing biomolecular outputs that meet precise biological needs. Experimental results demonstrate InstructBioMol can understand and design biomolecules following human instructions. Notably, it can generate drug molecules with a 10% improvement in binding affinity and design enzymes that achieve an ESP Score of 70.4, making it the only method to surpass the enzyme-substrate interaction threshold of 60.0 recommended by the ESP developer. This highlights its potential to transform real-world biomolecular research.
- Abstract(参考訳): タンパク質や小分子などの生体分子の理解と設計は、薬物発見、合成生物学、酵素工学の進歩の中心である。
人工知能(AI)の最近の進歩は、生体分子の研究に革命をもたらし、生体分子の予測と設計において顕著な精度を達成した。
しかし、AIの計算能力と研究者の直感の間には重要なギャップが残っており、自然言語を使って分子の複雑さと人間の意図を一致させている。
大規模言語モデル(LLM)は人間の意図を解釈する可能性を示しているが、その生体分子研究への応用は、専門知識要求、マルチモーダルデータ統合、自然言語と生体分子間の意味的アライメントといった課題により、いまだに初期段階にある。
InstructBioMolは、自然言語と生体分子を、自然言語、分子、タンパク質を包括的に一対一にアライメントすることによって橋渡しする、新しいLCMである。
このモデルはマルチモーダルな生体分子を入力として統合することができ、研究者は自然言語で設計目標を明確化し、正確な生物学的要求を満たす生体分子出力を提供することができる。
InstructBioMolは人間の指示に従って生体分子を理解し設計することができる。
特に、結合親和性が10%向上し、ESPスコア70.4に達する酵素を設計できるため、ESP開発者が推奨する60.0の酵素-基質相互作用閾値を超える唯一の方法である。
このことは、現実世界の生体分子研究を変革する可能性を強調している。
関連論文リスト
- Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [49.64512917330373]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - Leveraging Biomolecule and Natural Language through Multi-Modal
Learning: A Survey [75.47055414002571]
生物分子モデリングと自然言語(BL)の統合は、人工知能、化学、生物学の交差点において有望な学際領域として現れてきた。
生体分子と自然言語の相互モデリングによって達成された最近の進歩について分析する。
論文 参考訳(メタデータ) (2024-03-03T14:59:47Z) - BioT5+: Towards Generalized Biological Understanding with IUPAC Integration and Multi-task Tuning [77.90250740041411]
本稿では,BioT5フレームワークの拡張であるBioT5+を紹介する。
BioT5+ には、分子理解のための IUPAC 名の統合、bioRxiv や PubChem などのソースからの広範なバイオテキストと分子データの統合、タスク間の汎用性のためのマルチタスク命令チューニング、数値データの処理を改善する数値トークン化技術など、いくつかの新機能が含まれている。
論文 参考訳(メタデータ) (2024-02-27T12:43:09Z) - BioT5: Enriching Cross-modal Integration in Biology with Chemical
Knowledge and Natural Language Associations [54.97423244799579]
$mathbfBioT5$は、化学知識と自然言語の関連性によって生物学のクロスモーダルな統合を強化する事前学習フレームワークである。
$mathbfBioT5$は構造化知識と非構造化知識を区別し、より効果的な情報利用につながる。
論文 参考訳(メタデータ) (2023-10-11T07:57:08Z) - Interactive Molecular Discovery with Natural Language [69.89287960545903]
対象分子を記述・編集するための自然言語を用いた対話型分子設計を提案する。
この課題をより良くするために、実験プロパティ情報を注入することによって強化された知識的で汎用的な生成事前学習モデルChatMolを設計する。
論文 参考訳(メタデータ) (2023-06-21T02:05:48Z) - Mol-Instructions: A Large-Scale Biomolecular Instruction Dataset for
Large Language Models [44.41299105569085]
Mol-Instructionsは、生体分子ドメイン用に設計された包括的な命令データセットである。
各コンポーネントは、生体分子の特徴や行動に関するLCMの理解と予測能力を改善することを目的としている。
生体分子研究の複雑な領域における大規模モデルの性能向上におけるモールインストラクションの有効性を実証する。
論文 参考訳(メタデータ) (2023-06-13T14:35:34Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。