論文の概要: Exploiting Pretrained Biochemical Language Models for Targeted Drug
Design
- arxiv url: http://arxiv.org/abs/2209.00981v1
- Date: Fri, 2 Sep 2022 12:21:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-05 11:56:48.217340
- Title: Exploiting Pretrained Biochemical Language Models for Targeted Drug
Design
- Title(参考訳): 薬物設計のための事前訓練済み生化学言語モデルの利用
- Authors: G\"ok\c{c}e Uludo\u{g}an, Elif Ozkirimli, Kutlu O. Ulgen, Nilg\"un
Karal{\i}, Arzucan \"Ozg\"ur
- Abstract要約: 本研究では, 標的分子生成モデルの初期化のために, 事前学習された生化学言語モデルを活用することを提案する。
我々は、ビームサーチとサンプリングという2つのデコード戦略を比較して、化合物を生成する。
- 参考スコア(独自算出の注目度): 0.1889930012459365
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Motivation: The development of novel compounds targeting proteins of interest
is one of the most important tasks in the pharmaceutical industry. Deep
generative models have been applied to targeted molecular design and have shown
promising results. Recently, target-specific molecule generation has been
viewed as a translation between the protein language and the chemical language.
However, such a model is limited by the availability of interacting
protein-ligand pairs. On the other hand, large amounts of unlabeled protein
sequences and chemical compounds are available and have been used to train
language models that learn useful representations. In this study, we propose
exploiting pretrained biochemical language models to initialize (i.e. warm
start) targeted molecule generation models. We investigate two warm start
strategies: (i) a one-stage strategy where the initialized model is trained on
targeted molecule generation (ii) a two-stage strategy containing a
pre-finetuning on molecular generation followed by target specific training. We
also compare two decoding strategies to generate compounds: beam search and
sampling.
Results: The results show that the warm-started models perform better than a
baseline model trained from scratch. The two proposed warm-start strategies
achieve similar results to each other with respect to widely used metrics from
benchmarks. However, docking evaluation of the generated compounds for a number
of novel proteins suggests that the one-stage strategy generalizes better than
the two-stage strategy. Additionally, we observe that beam search outperforms
sampling in both docking evaluation and benchmark metrics for assessing
compound quality.
Availability and implementation: The source code is available at
https://github.com/boun-tabi/biochemical-lms-for-drug-design and the materials
are archived in Zenodo at https://doi.org/10.5281/zenodo.6832145
- Abstract(参考訳): モチベーション:興味のあるタンパク質を標的とした新規化合物の開発は、製薬業界で最も重要な課題の1つである。
深層生成モデルは標的分子設計に応用され、有望な結果を示している。
近年、標的特異的分子生成は、タンパク質言語と化学言語の間の翻訳と見なされている。
しかし、そのようなモデルは相互作用するタンパク質-リガンド対の可用性によって制限される。
一方で、大量のラベルのないタンパク質配列と化学物質が利用可能であり、有用な表現を学ぶ言語モデルの訓練に使用されている。
本研究では, 未学習の生化学言語モデルを用いて, 標的分子生成モデルを初期化することを提案する。
2つのウォームスタート戦略を調査します
(i)初期化モデルが標的分子生成で訓練される一段階戦略
(ii)分子発生の事前調整と標的特定訓練を含む二段階戦略。
また,ビーム探索とサンプリングという2つのデコーディング戦略を比較した。
結果: ウォームスタートモデルの性能は,スクラッチからトレーニングしたベースラインモデルよりも優れていた。
提案した2つのウォームスタート戦略は、ベンチマークから広く使用されているメトリクスに関して、互いに同様の結果を得る。
しかし, 生成した化合物のドッキング評価は, 1段階戦略が2段階戦略よりも一般化したことを示唆している。
また,ドッキング評価とベンチマーク指標の両方において,ビームサーチがサンプリングを上回り,複合品質を評価する。
可用性と実装:ソースコードはhttps://github.com/boun-tabi/biochemical-lms-for-drug-designで入手できる。
関連論文リスト
- Aligning Target-Aware Molecule Diffusion Models with Exact Energy Optimization [147.7899503829411]
AliDiffは、事前訓練されたターゲット拡散モデルと望ましい機能特性を整合させる新しいフレームワークである。
最先端の結合エネルギーを持つ分子を最大7.07 Avg. Vina Scoreで生成することができる。
論文 参考訳(メタデータ) (2024-07-01T06:10:29Z) - Optimizing OOD Detection in Molecular Graphs: A Novel Approach with Diffusion Models [71.39421638547164]
本稿では,入力分子と再構成グラフの類似性を比較する補助拡散モデルに基づくフレームワークを用いてOOD分子を検出することを提案する。
IDトレーニングサンプルの再構成に向けた生成バイアスのため、OOD分子の類似度スコアは検出を容易にするためにはるかに低い。
本研究は,PGR-MOOD(PGR-MOOD)とよばれる分子OOD検出のためのプロトタイプグラフ再構成のアプローチを開拓し,3つのイノベーションを生かした。
論文 参考訳(メタデータ) (2024-04-24T03:25:53Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Target-aware Variational Auto-encoders for Ligand Generation with
Multimodal Protein Representation Learning [2.01243755755303]
ターゲット認識型自動エンコーダであるTargetVAEを導入し、任意のタンパク質標的に対する高い結合親和性で生成する。
これは、タンパク質の異なる表現を単一のモデルに統一する最初の試みであり、これは我々がタンパク質マルチモーダルネットワーク(PMN)と呼ぶ。
論文 参考訳(メタデータ) (2023-08-02T12:08:17Z) - Target Specific De Novo Design of Drug Candidate Molecules with Graph Transformer-based Generative Adversarial Networks [0.0]
薬物候補分子のデノボ設計のためのエンド・ツー・エンド生成システムであるDr.GENを提案する。
このシステムは、薬物のような化合物と標的特異的な生物活性分子の大規模なデータセットを用いて訓練される。
オープンアクセスされた薬物遺伝子を用いて、他の薬剤性タンパク質のモデルを容易に訓練することができる。
論文 参考訳(メタデータ) (2023-02-15T18:59:27Z) - Drug Synergistic Combinations Predictions via Large-Scale Pre-Training
and Graph Structure Learning [82.93806087715507]
薬物併用療法は、より有効で安全性の低い疾患治療のための確立された戦略である。
ディープラーニングモデルは、シナジスティックな組み合わせを発見する効率的な方法として登場した。
我々のフレームワークは、他のディープラーニングベースの手法と比較して最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-01-14T15:07:43Z) - A Transformer-based Generative Model for De Novo Molecular Design [4.6782243206450325]
ターゲット特異的分子設計のためのトランスフォーマーに基づくディープモデルを提案する。
提案法は, 薬物様化合物と標的特異的化合物の両方を生成可能である。
論文 参考訳(メタデータ) (2022-10-17T05:03:35Z) - Retrieval-based Controllable Molecule Generation [63.44583084888342]
制御可能な分子生成のための検索に基づく新しいフレームワークを提案する。
我々は、与えられた設計基準を満たす分子の合成に向けて、事前学習された生成モデルを操るために、分子の小さなセットを使用します。
提案手法は生成モデルの選択に非依存であり,タスク固有の微調整は不要である。
論文 参考訳(メタデータ) (2022-08-23T17:01:16Z) - A biologically-inspired evaluation of molecular generative machine
learning [17.623886600638716]
分子生成モデル評価のためのバイオインスパイアされた新しいベンチマークを提案する。
本稿では, 創出出力評価のための相補的手法として, レクリエーション指標, 薬物-標的親和性予測, 分子ドッキングを提案する。
論文 参考訳(メタデータ) (2022-08-20T11:01:10Z) - Widely Used and Fast De Novo Drug Design by a Protein Sequence-Based
Reinforcement Learning Model [4.815696666006742]
構造に基づくde novo法は、薬物と標的の相互作用を深く生成するアーキテクチャに組み込むことによって、アクティブなデータ不足を克服することができる。
本稿では,医薬品発見のためのタンパク質配列に基づく拡張学習モデルについて紹介する。
概念実証として、RLモデルを用いて分子を4つのターゲットに設計した。
論文 参考訳(メタデータ) (2022-08-14T10:41:52Z) - Molecular Attributes Transfer from Non-Parallel Data [57.010952598634944]
分子最適化をスタイル伝達問題として定式化し、非並列データの2つのグループ間の内部差を自動的に学習できる新しい生成モデルを提案する。
毒性修飾と合成性向上という2つの分子最適化タスクの実験により,本モデルがいくつかの最先端手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2021-11-30T06:10:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。