論文の概要: Automated patent extraction powers generative modeling in focused
chemical spaces
- arxiv url: http://arxiv.org/abs/2303.08272v1
- Date: Tue, 14 Mar 2023 23:26:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 18:24:43.254387
- Title: Automated patent extraction powers generative modeling in focused
chemical spaces
- Title(参考訳): 集束化学空間における自動特許抽出パワー生成モデル
- Authors: Akshay Subramanian, Kevin Greenman, Alexis Gervaix, Tzuhsiung Yang,
Rafael G\'omez-Bombarelli
- Abstract要約: 深い生成モデルが逆分子設計のエキサイティングな道として登場した。
材料科学と化学への適用性における重要な課題の1つは、プロパティラベル付きでスケール可能なトレーニングデータセットにアクセスできないことである。
我々は、特許のデジタルファイルから、人間の介入を最小限に抑えた新しい候補を生み出すための自動パイプラインを開発する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep generative models have emerged as an exciting avenue for inverse
molecular design, with progress coming from the interplay between training
algorithms and molecular representations. One of the key challenges in their
applicability to materials science and chemistry has been the lack of access to
sizeable training datasets with property labels. Published patents contain the
first disclosure of new materials prior to their publication in journals, and
are a vast source of scientific knowledge that has remained relatively untapped
in the field of data-driven molecular design. Because patents are filed seeking
to protect specific uses, molecules in patents can be considered to be weakly
labeled into application classes. Furthermore, patents published by the US
Patent and Trademark Office (USPTO) are downloadable and have machine-readable
text and molecular structures. In this work, we train domain-specific
generative models using patent data sources by developing an automated pipeline
to go from USPTO patent digital files to the generation of novel candidates
with minimal human intervention. We test the approach on two in-class extracted
datasets, one in organic electronics and another in tyrosine kinase inhibitors.
We then evaluate the ability of generative models trained on these in-class
datasets on two categories of tasks (distribution learning and property
optimization), identify strengths and limitations, and suggest possible
explanations and remedies that could be used to overcome these in practice.
- Abstract(参考訳): 深層生成モデルは逆分子設計のエキサイティングな道として登場し、訓練アルゴリズムと分子表現の相互作用から進歩している。
材料科学と化学に適用可能な重要な課題の1つは、プロパティラベルを持つ大規模トレーニングデータセットにアクセスできないことだ。
出版される特許は、ジャーナルに掲載される前に新しい素材を初めて開示することを含み、データ駆動分子設計の分野では比較的未知の科学知識の膨大な情報源である。
特定の用途を保護するために特許が出願されるため、特許の分子はアプリケーションクラスに弱いラベルを付けることができる。
さらに、米国特許商標庁(uspto)が発行する特許はダウンロード可能であり、機械可読テキストおよび分子構造を有する。
本研究では,USPTO特許のデジタルファイルから,人間の介入を最小限に抑えた新規候補を生成するための自動パイプラインを開発することで,特許データソースを用いたドメイン固有生成モデルを訓練する。
本手法は,有機エレクトロニクスとチロシンキナーゼ阻害薬の2種類のin-class抽出データセットでテストした。
次に、これらのクラス内データセットでトレーニングされた生成モデルの能力(分散学習とプロパティ最適化)を評価し、強みと限界を特定し、実際にこれらを克服するために使用できる説明と改善を提案する。
関連論文リスト
- A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - Retrieval-based Controllable Molecule Generation [63.44583084888342]
制御可能な分子生成のための検索に基づく新しいフレームワークを提案する。
我々は、与えられた設計基準を満たす分子の合成に向けて、事前学習された生成モデルを操るために、分子の小さなセットを使用します。
提案手法は生成モデルの選択に非依存であり,タスク固有の微調整は不要である。
論文 参考訳(メタデータ) (2022-08-23T17:01:16Z) - The Harvard USPTO Patent Dataset: A Large-Scale, Well-Structured, and
Multi-Purpose Corpus of Patent Applications [8.110699646062384]
ハーバードUSPTO特許データセット(HUPD)について紹介する。
450万件以上の特許文書があり、HUPDは同等のコーパスの2倍から3倍の大きさだ。
各アプリケーションのメタデータとすべてのテキストフィールドを提供することで、このデータセットは研究者が新しいNLPタスクセットを実行することを可能にする。
論文 参考訳(メタデータ) (2022-07-08T17:57:15Z) - Exploring Chemical Space with Score-based Out-of-distribution Generation [57.15855198512551]
生成微分方程式(SDE)にアウト・オブ・ディストリビューション制御を組み込んだスコアベース拡散方式を提案する。
MOODは、逆時間拡散を高速領域に導く特性予測ネットワークからの勾配を利用して条件付き生成を行う。
我々はMOODがトレーニング分布を超えて化学空間を探索できることを実験的に検証し、既存の方法で見いだされた分子、そして元のトレーニングプールの上位0.01%までも生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-06T06:17:11Z) - A Survey on Sentence Embedding Models Performance for Patent Analysis [0.0]
本稿では,PatentSBERTaアプローチに基づく埋め込みモデルの精度を評価するための標準ライブラリとデータセットを提案する。
patentSBERTa, Bert-for-patents, and TF-IDF Weighted Word Embeddings is the most accuracy for computing sentence embeddeds at the subclass level。
論文 参考訳(メタデータ) (2022-04-28T12:04:42Z) - Artificial Intelligence in Drug Discovery: Applications and Techniques [33.59138543942538]
仮想スクリーニングやドラッグデザインなど、さまざまなAI技術が幅広い用途で使用されている。
まず、薬物発見の概要を説明し、関連するアプリケーションについて議論し、2つの主要なタスクに還元することができる。
次に、一般的なデータリソース、分子表現、ベンチマークプラットフォームについて議論する。
論文 参考訳(メタデータ) (2021-06-09T20:46:44Z) - Artificial Intelligence based Autonomous Molecular Design for Medical
Therapeutic: A Perspective [9.371378627575883]
ドメイン認識機械学習(ML)モデルは、小さな分子治療設計の加速にますます採用されている。
我々は、各コンポーネントによって達成された最新のブレークスルーと、このような自律型AIとMLワークフローをどのように実現できるかを提示する。
論文 参考訳(メタデータ) (2021-02-10T00:43:46Z) - Neural networks for Anatomical Therapeutic Chemical (ATC) [83.73971067918333]
両方向の長期記憶ネットワーク(BiLSTM)から抽出された集合を含む、特徴の異なるセットで訓練された複数の複数ラベル分類器を組み合わせることを提案する。
実験はこのアプローチのパワーを実証し、文献で報告された最良の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2021-01-22T19:49:47Z) - Named entity recognition in chemical patents using ensemble of
contextual language models [0.3731111830152912]
化学特許から情報を取り出すための文脈型言語モデルの有効性について検討する。
我々の最良のモデルは、多数アンサンブルのアプローチに基づくもので、正確なF1スコアは92.30%、緩和されたF1スコアは96.24%に達する。
論文 参考訳(メタデータ) (2020-07-24T15:23:45Z) - Self-Supervised Graph Transformer on Large-Scale Molecular Data [73.3448373618865]
分子表現学習のための新しいフレームワークGROVERを提案する。
GROVERは、分子の豊富な構造的および意味的な情報を、巨大な未標識分子データから学習することができる。
分子表現学習において、最大のGNNであり、最大のトレーニングデータセットである、1000万個の未標識分子に1億のパラメータを持つGROVERを事前訓練します。
論文 参考訳(メタデータ) (2020-06-18T08:37:04Z) - MolTrans: Molecular Interaction Transformer for Drug Target Interaction
Prediction [68.5766865583049]
薬物標的相互作用(DTI)予測は、シリコ薬物発見の基本的な課題である。
近年、DTI予測におけるディープラーニングの進歩が期待されている。
これらの制約に対処する分子間相互作用変換器(TransMol)を提案する。
論文 参考訳(メタデータ) (2020-04-23T18:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。