論文の概要: NatureLM: Deciphering the Language of Nature for Scientific Discovery
- arxiv url: http://arxiv.org/abs/2502.07527v1
- Date: Tue, 11 Feb 2025 13:08:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:09:14.680348
- Title: NatureLM: Deciphering the Language of Nature for Scientific Discovery
- Title(参考訳): NatureLM:科学発見のための自然言語の解読
- Authors: Yingce Xia, Peiran Jin, Shufang Xie, Liang He, Chuan Cao, Renqian Luo, Guoqing Liu, Yue Wang, Zequn Liu, Yuan-Jyue Chen, Zekun Guo, Yeqi Bai, Pan Deng, Yaosen Min, Ziheng Lu, Hongxia Hao, Han Yang, Jielan Li, Chang Liu, Jia Zhang, Jianwei Zhu, Kehan Wu, Wei Zhang, Kaiyuan Gao, Qizhi Pei, Qian Wang, Xixian Liu, Yanting Li, Houtian Zhu, Yeqing Lu, Mingqian Ma, Zun Wang, Tian Xie, Krzysztof Maziarz, Marwin Segler, Zhao Yang, Zilong Chen, Yu Shi, Shuxin Zheng, Lijun Wu, Chen Hu, Peggy Dai, Tie-Yan Liu, Haiguang Liu, Tao Qin,
- Abstract要約: 基礎モデルは自然言語処理と人工知能に革命をもたらした。
科学発見のためのシーケンスベース科学基盤モデルであるNature Language Model(略してNatureLM)を紹介する。
- 参考スコア(独自算出の注目度): 105.57567762153462
- License:
- Abstract: Foundation models have revolutionized natural language processing and artificial intelligence, significantly enhancing how machines comprehend and generate human languages. Inspired by the success of these foundation models, researchers have developed foundation models for individual scientific domains, including small molecules, materials, proteins, DNA, and RNA. However, these models are typically trained in isolation, lacking the ability to integrate across different scientific domains. Recognizing that entities within these domains can all be represented as sequences, which together form the "language of nature", we introduce Nature Language Model (briefly, NatureLM), a sequence-based science foundation model designed for scientific discovery. Pre-trained with data from multiple scientific domains, NatureLM offers a unified, versatile model that enables various applications including: (i) generating and optimizing small molecules, proteins, RNA, and materials using text instructions; (ii) cross-domain generation/design, such as protein-to-molecule and protein-to-RNA generation; and (iii) achieving state-of-the-art performance in tasks like SMILES-to-IUPAC translation and retrosynthesis on USPTO-50k. NatureLM offers a promising generalist approach for various scientific tasks, including drug discovery (hit generation/optimization, ADMET optimization, synthesis), novel material design, and the development of therapeutic proteins or nucleotides. We have developed NatureLM models in different sizes (1 billion, 8 billion, and 46.7 billion parameters) and observed a clear improvement in performance as the model size increases.
- Abstract(参考訳): ファンデーションモデルは自然言語処理と人工知能に革命をもたらし、機械が人間の言語を理解して生成する方法を大幅に強化した。
これらの基礎モデルの成功に触発されて、研究者は小さな分子、物質、タンパク質、DNA、RNAを含む個々の科学領域の基礎モデルを開発した。
しかしながら、これらのモデルは典型的には独立して訓練されており、異なる科学領域をまたいで統合する能力が欠如している。
自然言語モデル(Nature Language Model、略称NatureLM)は、科学的な発見のために設計された科学基盤モデルである。
NatureLMは、複数の科学分野のデータで事前訓練された、統一的で汎用的なモデルを提供する。
一 テキストによる小分子、タンパク質、RNA及び材料の生成及び最適化
(ii)タンパク質から分子への、タンパク質からRNAへの、ドメイン間の生成/設計、及び
3)USPTO-50kにおけるSMILES-to-IUPAC翻訳やレトロシンセシスといったタスクにおける最先端性能の実現。
NatureLMは、薬物発見(ヒット生成/最適化、ADMET最適化、合成)、新しい材料設計、治療タンパク質やヌクレオチドの開発など、様々な科学的タスクに対して有望な汎用的なアプローチを提供する。
我々はNatureLMモデルを異なるサイズ(10億、80億、467億のパラメータ)で開発し、モデルのサイズが大きくなるにつれて明らかに性能が向上することを示した。
関連論文リスト
- InstructBioMol: Advancing Biomolecule Understanding and Design Following Human Instructions [32.38318676313486]
InstructBioMolは自然言語と生体分子を橋渡しするように設計されている。
マルチモーダルな生体分子を入力として統合し、研究者が自然言語で設計目標を明確にすることができる。
結合親和性は10%向上し、ESPスコア70.4に達する酵素を設計することができる。
論文 参考訳(メタデータ) (2024-10-10T13:45:56Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [49.64512917330373]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - Leveraging Biomolecule and Natural Language through Multi-Modal
Learning: A Survey [75.47055414002571]
生物分子モデリングと自然言語(BL)の統合は、人工知能、化学、生物学の交差点において有望な学際領域として現れてきた。
生体分子と自然言語の相互モデリングによって達成された最近の進歩について分析する。
論文 参考訳(メタデータ) (2024-03-03T14:59:47Z) - nach0: Multimodal Natural and Chemical Languages Foundation Model [7.815497069231599]
本稿では, 様々な化学的・生物学的課題を解決できる新しい基礎モデルであるnach0を紹介する。
nach0は、科学文献、特許、分子文字列の未ラベルテキストで事前訓練されたマルチドメインおよびマルチタスクエンコーダLLMである。
論文 参考訳(メタデータ) (2023-11-21T07:56:30Z) - DARWIN Series: Domain Specific Large Language Models for Natural Science [20.864698325126735]
本稿では,物理,化学,物質科学を中心に,自然科学に適したLLMのシリーズであるDARWINを紹介する。
我々は6万以上の命令データポイントを用いてモデルを微調整し、事実の正しさを強調した。
DARWINシリーズは、様々な科学的タスクに関する最先端の結果を達成するだけでなく、クローズドソースAIモデルへの依存を減少させる。
論文 参考訳(メタデータ) (2023-08-25T01:40:48Z) - Interactive Molecular Discovery with Natural Language [69.89287960545903]
対象分子を記述・編集するための自然言語を用いた対話型分子設計を提案する。
この課題をより良くするために、実験プロパティ情報を注入することによって強化された知識的で汎用的な生成事前学習モデルChatMolを設計する。
論文 参考訳(メタデータ) (2023-06-21T02:05:48Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。