論文の概要: Mining Patents with Large Language Models Demonstrates Congruence of
Functional Labels and Chemical Structures
- arxiv url: http://arxiv.org/abs/2309.08765v1
- Date: Fri, 15 Sep 2023 21:08:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 19:35:21.183409
- Title: Mining Patents with Large Language Models Demonstrates Congruence of
Functional Labels and Chemical Structures
- Title(参考訳): 大規模言語モデルによるマイニング特許による機能ラベルと化学構造の統合
- Authors: Clayton W. Kosonocky, Claus O. Wilke, Edward M. Marcotte, and Andrew
D. Ellington
- Abstract要約: 新しい機械学習アルゴリズムは、多くの異なる化学機能にまたがる一般的な予測モデルの可能性を広げている。
本稿では,これらの資源が獲得した化学機能に関する情報を統合・活用するために,大規模言語モデルを化学特許に適用することの課題について考察する。
我々は100K分子とその特許由来の機能ラベルを含むケミカルファンクションデータセットを導出する。
- 参考スコア(独自算出の注目度): 0.3749861135832073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predicting chemical function from structure is a major goal of the chemical
sciences, from the discovery and repurposing of novel drugs to the creation of
new materials. Recently, new machine learning algorithms are opening up the
possibility of general predictive models spanning many different chemical
functions. Here, we consider the challenge of applying large language models to
chemical patents in order to consolidate and leverage the information about
chemical functionality captured by these resources. Chemical patents contain
vast knowledge on chemical function, but their usefulness as a dataset has
historically been neglected due to the impracticality of extracting
high-quality functional labels. Using a scalable ChatGPT-assisted patent
summarization and word-embedding label cleaning pipeline, we derive a Chemical
Function (CheF) dataset, containing 100K molecules and their patent-derived
functional labels. The functional labels were validated to be of high quality,
allowing us to detect a strong relationship between functional label and
chemical structural spaces. Further, we find that the co-occurrence graph of
the functional labels contains a robust semantic structure, which allowed us in
turn to examine functional relatedness among the compounds. We then trained a
model on the CheF dataset, allowing us to assign new functional labels to
compounds. Using this model, we were able to retrodict approved Hepatitis C
antivirals, uncover an antiviral mechanism undisclosed in the patent, and
identify plausible serotonin-related drugs. The CheF dataset and associated
model offers a promising new approach to predict chemical functionality.
- Abstract(参考訳): 構造から化学機能を予測することは、新薬の発見と再導入から新素材の創造に至るまで、化学科学の主要な目標である。
最近、新しい機械学習アルゴリズムは、様々な化学関数にまたがる一般的な予測モデルの可能性を開く。
本稿では,これらの資源が獲得した化学機能に関する情報を統合・活用するために,大規模言語モデルを化学特許に適用することの課題について考察する。
化学特許には化学機能に関する豊富な知識が含まれているが、高品質の機能ラベルを抽出できないため、データセットとしての有用性は歴史的に無視されている。
スケーラブルなChatGPTによる特許要約と単語埋め込みラベルクリーニングパイプラインを用いて,100K分子とその特許由来の機能ラベルを含むケミカル関数(CheF)データセットを導出する。
機能ラベルは高品質であることが確認され,機能ラベルと化学構造空間との強い関係が検出された。
さらに, 機能ラベルの共起グラフはロバストな意味構造を持ち, それらの化合物の機能的関連性を調べることができた。
その後、CheFデータセットのモデルをトレーニングし、化合物に新しい機能ラベルを割り当てました。
このモデルを用いて、承認されたC型肝炎ウイルスを再現し、特許に記載されていない抗ウイルス機構を解明し、可溶性セロトニン関連薬剤を同定した。
CheFデータセットと関連するモデルは、化学機能を予測するための有望な新しいアプローチを提供する。
関連論文リスト
- FARM: Functional Group-Aware Representations for Small Molecules [55.281754551202326]
小型分子のための機能的グループ認識表現(FARM)について紹介する。
FARMはSMILES、自然言語、分子グラフのギャップを埋めるために設計された基礎モデルである。
MoleculeNetデータセット上でFARMを厳格に評価し、12タスク中10タスクで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-10-02T23:04:58Z) - UniIF: Unified Molecule Inverse Folding [67.60267592514381]
全分子の逆折り畳みのための統一モデルUniIFを提案する。
提案手法は,全タスクにおける最先端手法を超越した手法である。
論文 参考訳(メタデータ) (2024-05-29T10:26:16Z) - From molecules to scaffolds to functional groups: building context-dependent molecular representation via multi-channel learning [10.025809630976065]
本稿では,より堅牢で一般化可能な化学知識を学習する,新しい事前学習フレームワークを提案する。
提案手法は,種々の分子特性ベンチマークにおける競合性能を示す。
論文 参考訳(メタデータ) (2023-11-05T23:47:52Z) - Interactive Molecular Discovery with Natural Language [69.89287960545903]
対象分子を記述・編集するための自然言語を用いた対話型分子設計を提案する。
この課題をより良くするために、実験プロパティ情報を注入することによって強化された知識的で汎用的な生成事前学習モデルChatMolを設計する。
論文 参考訳(メタデータ) (2023-06-21T02:05:48Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Discovery of structure-property relations for molecules via
hypothesis-driven active learning over the chemical space [0.0]
本稿では,仮説学習に基づく化学空間上の能動的学習のための新しいアプローチを提案する。
我々は,データサブセットの小さな部分集合に基づいて,関心の構造と機能の関係性に関する仮説を構築した。
このアプローチでは、SISSOやアクティブラーニングといったシンボリックレグレッションメソッドの要素をひとつのフレームワークに統合する。
論文 参考訳(メタデータ) (2023-01-06T14:22:43Z) - Multi-modal Molecule Structure-text Model for Text-based Retrieval and
Editing [107.49804059269212]
分子の化学構造とテキスト記述を共同で学習し, マルチモーダルな分子構造テキストモデル, MoleculeSTMを提案する。
実験において、分子STMは、新しい生化学的概念を創出するための最先端の一般化能力を得る。
論文 参考訳(メタデータ) (2022-12-21T06:18:31Z) - Scalable Fragment-Based 3D Molecular Design with Reinforcement Learning [68.8204255655161]
分子構築に階層的エージェントを用いるスケーラブルな3D設計のための新しいフレームワークを提案する。
様々な実験において、エネルギーのみを考慮に入れたエージェントが、100以上の原子を持つ分子を効率よく生成できることが示されている。
論文 参考訳(メタデータ) (2022-02-01T18:54:24Z) - End-to-End Differentiable Molecular Mechanics Force Field Construction [0.5269923665485903]
化学環境を知覚するためにグラフニューラルネットワークを用いる別のアプローチを提案する。
プロセス全体がモジュール化されており、モデルパラメータに関してエンドツーエンドの差別化が可能である。
本手法は, 従来の原子型を再現するだけでなく, 既存の分子力学力場を正確に再現し, 拡張することができることを示す。
論文 参考訳(メタデータ) (2020-10-02T20:59:46Z) - Reinforcement Learning for Molecular Design Guided by Quantum Mechanics [10.112779201155005]
分子設計のための新しいRL式を座標で提示し、構築可能な分子のクラスを拡張した。
我々の報酬関数は、高速量子化学法で近似したエネルギーのような基本的な物理的性質に基づいている。
本実験では, 翻訳および回転不変状態-作用空間で作業することで, エージェントがスクラッチからこれらの課題を効率的に解けることを示す。
論文 参考訳(メタデータ) (2020-02-18T16:43:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。