論文の概要: Mining Patents with Large Language Models Elucidates the Chemical
Function Landscape
- arxiv url: http://arxiv.org/abs/2309.08765v2
- Date: Mon, 18 Dec 2023 18:24:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 22:56:59.433560
- Title: Mining Patents with Large Language Models Elucidates the Chemical
Function Landscape
- Title(参考訳): 化学機能景観を解明する大規模言語モデルによる鉱業特許
- Authors: Clayton W. Kosonocky, Claus O. Wilke, Edward M. Marcotte, and Andrew
D. Ellington
- Abstract要約: 大規模テキスト由来の化学関数データセットが, 化学機能の実際の景観を反映していることが示される。
そして、このテキストベースの機能的ランドスケープを利用して、ターゲット機能を持つ薬物を識別できることを実証する。
我々は、機能的ラベル誘導分子発見が、従来の構造に基づく手法へのアプローチとして役立つと信じている。
- 参考スコア(独自算出の注目度): 0.3749861135832073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The fundamental goal of small molecule discovery is to generate chemicals
with target functionality. While this often proceeds through structure-based
methods, we set out to investigate the practicality of orthogonal methods that
leverage the extensive corpus of chemical literature. We hypothesize that a
sufficiently large text-derived chemical function dataset would mirror the
actual landscape of chemical functionality. Such a landscape would implicitly
capture complex physical and biological interactions given that chemical
function arises from both a molecule's structure and its interacting partners.
To evaluate this hypothesis, we built a Chemical Function (CheF) dataset of
patent-derived functional labels. This dataset, comprising 631K
molecule-function pairs, was created using an LLM- and embedding-based method
to obtain functional labels for approximately 100K molecules from their
corresponding 188K unique patents. We carry out a series of analyses
demonstrating that the CheF dataset contains a semantically coherent textual
representation of the functional landscape congruent with chemical structural
relationships, thus approximating the actual chemical function landscape. We
then demonstrate that this text-based functional landscape can be leveraged to
identify drugs with target functionality using a model able to predict
functional profiles from structure alone. We believe that functional
label-guided molecular discovery may serve as an orthogonal approach to
traditional structure-based methods in the pursuit of designing novel
functional molecules.
- Abstract(参考訳): 小さな分子の発見の基本的な目標は、標的機能を持つ化学物質を生産することである。
これはしばしば構造に基づく手法によって進行するが、化学文献の広範なコーパスを活用する直交法の実現性について検討する。
十分に大きなテキスト由来の化学関数データセットは、化学機能の実際の景観を反映するであろうと仮定する。
このようなランドスケープは、分子の構造と相互作用パートナーの両方から化学的機能が発生することを考慮し、複雑な物理的および生物学的相互作用を暗黙的に捉える。
この仮説を評価するため,特許由来の機能ラベルのケミカル関数(CheF)データセットを構築した。
631K分子関数対からなるこのデータセットは、LLM法と埋め込み法を用いて作成され、対応する188Kのユニークな特許から約100K分子の機能ラベルを得た。
我々は,CheFデータセットが化学構造と相反する機能的景観のセマンティックコヒーレントなテキスト表現を含んでいることを示す一連の分析を行い,実際の化学機能景観を近似した。
そこで本研究では,このテキストベースの機能的ランドスケープを利用して,構造のみから機能的プロファイルを予測できるモデルを用いて,ターゲット機能を持つ薬物を識別できることを実証する。
我々は、機能的ラベル誘導分子の発見は、新しい機能分子の設計を追求する伝統的な構造に基づく手法の直交的アプローチとして役立つと信じている。
関連論文リスト
- FARM: Functional Group-Aware Representations for Small Molecules [55.281754551202326]
小型分子のための機能的グループ認識表現(FARM)について紹介する。
FARMはSMILES、自然言語、分子グラフのギャップを埋めるために設計された基礎モデルである。
MoleculeNetデータセット上でFARMを厳格に評価し、12タスク中10タスクで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-10-02T23:04:58Z) - UniIF: Unified Molecule Inverse Folding [67.60267592514381]
全分子の逆折り畳みのための統一モデルUniIFを提案する。
提案手法は,全タスクにおける最先端手法を超越した手法である。
論文 参考訳(メタデータ) (2024-05-29T10:26:16Z) - From molecules to scaffolds to functional groups: building context-dependent molecular representation via multi-channel learning [10.025809630976065]
本稿では,より堅牢で一般化可能な化学知識を学習する,新しい事前学習フレームワークを提案する。
提案手法は,種々の分子特性ベンチマークにおける競合性能を示す。
論文 参考訳(メタデータ) (2023-11-05T23:47:52Z) - Interactive Molecular Discovery with Natural Language [69.89287960545903]
対象分子を記述・編集するための自然言語を用いた対話型分子設計を提案する。
この課題をより良くするために、実験プロパティ情報を注入することによって強化された知識的で汎用的な生成事前学習モデルChatMolを設計する。
論文 参考訳(メタデータ) (2023-06-21T02:05:48Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Discovery of structure-property relations for molecules via
hypothesis-driven active learning over the chemical space [0.0]
本稿では,仮説学習に基づく化学空間上の能動的学習のための新しいアプローチを提案する。
我々は,データサブセットの小さな部分集合に基づいて,関心の構造と機能の関係性に関する仮説を構築した。
このアプローチでは、SISSOやアクティブラーニングといったシンボリックレグレッションメソッドの要素をひとつのフレームワークに統合する。
論文 参考訳(メタデータ) (2023-01-06T14:22:43Z) - Multi-modal Molecule Structure-text Model for Text-based Retrieval and
Editing [107.49804059269212]
分子の化学構造とテキスト記述を共同で学習し, マルチモーダルな分子構造テキストモデル, MoleculeSTMを提案する。
実験において、分子STMは、新しい生化学的概念を創出するための最先端の一般化能力を得る。
論文 参考訳(メタデータ) (2022-12-21T06:18:31Z) - Scalable Fragment-Based 3D Molecular Design with Reinforcement Learning [68.8204255655161]
分子構築に階層的エージェントを用いるスケーラブルな3D設計のための新しいフレームワークを提案する。
様々な実験において、エネルギーのみを考慮に入れたエージェントが、100以上の原子を持つ分子を効率よく生成できることが示されている。
論文 参考訳(メタデータ) (2022-02-01T18:54:24Z) - End-to-End Differentiable Molecular Mechanics Force Field Construction [0.5269923665485903]
化学環境を知覚するためにグラフニューラルネットワークを用いる別のアプローチを提案する。
プロセス全体がモジュール化されており、モデルパラメータに関してエンドツーエンドの差別化が可能である。
本手法は, 従来の原子型を再現するだけでなく, 既存の分子力学力場を正確に再現し, 拡張することができることを示す。
論文 参考訳(メタデータ) (2020-10-02T20:59:46Z) - Reinforcement Learning for Molecular Design Guided by Quantum Mechanics [10.112779201155005]
分子設計のための新しいRL式を座標で提示し、構築可能な分子のクラスを拡張した。
我々の報酬関数は、高速量子化学法で近似したエネルギーのような基本的な物理的性質に基づいている。
本実験では, 翻訳および回転不変状態-作用空間で作業することで, エージェントがスクラッチからこれらの課題を効率的に解けることを示す。
論文 参考訳(メタデータ) (2020-02-18T16:43:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。