論文の概要: Text-Guided Molecule Generation with Diffusion Language Model
- arxiv url: http://arxiv.org/abs/2402.13040v1
- Date: Tue, 20 Feb 2024 14:29:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 14:54:31.596289
- Title: Text-Guided Molecule Generation with Diffusion Language Model
- Title(参考訳): 拡散言語モデルを用いたテキストガイド分子生成
- Authors: Haisong Gong, Qiang Liu, Shu Wu, Liang Wang
- Abstract要約: 拡散言語モデル(TGM-DLM)を用いたテキストガイド型分子生成法を提案する。
TGM-DLMは、2相拡散生成プロセスを用いてSMILES文字列内にトークンの埋め込みをまとめ、反復的に更新する。
我々は、TGM-DLMが、追加のデータリソースを必要とせずに、自動回帰モデルであるMolT5-Baseより優れていることを実証する。
- 参考スコア(独自算出の注目度): 23.170313481324598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided molecule generation is a task where molecules are generated to
match specific textual descriptions. Recently, most existing SMILES-based
molecule generation methods rely on an autoregressive architecture. In this
work, we propose the Text-Guided Molecule Generation with Diffusion Language
Model (TGM-DLM), a novel approach that leverages diffusion models to address
the limitations of autoregressive methods. TGM-DLM updates token embeddings
within the SMILES string collectively and iteratively, using a two-phase
diffusion generation process. The first phase optimizes embeddings from random
noise, guided by the text description, while the second phase corrects invalid
SMILES strings to form valid molecular representations. We demonstrate that
TGM-DLM outperforms MolT5-Base, an autoregressive model, without the need for
additional data resources. Our findings underscore the remarkable effectiveness
of TGM-DLM in generating coherent and precise molecules with specific
properties, opening new avenues in drug discovery and related scientific
domains. Code will be released at: https://github.com/Deno-V/tgm-dlm.
- Abstract(参考訳): テキスト誘導分子生成は、特定のテキスト記述と一致するように分子を生成するタスクである。
近年、既存のSMILESベースの分子生成法は自己回帰アーキテクチャに依存している。
本研究では,拡散言語モデルを用いたテキストガイド型分子生成(TGM-DLM)を提案する。
TGM-DLMは、2相拡散生成プロセスを用いてSMILES文字列内にトークンの埋め込みをまとめ、反復的に更新する。
第1フェーズはテキスト記述によるランダムノイズからの埋め込みを最適化し、第2フェーズは不正なスマイル文字列を補正して有効な分子表現を形成する。
我々は,TGM-DLMがデータリソースの追加を必要とせず,自動回帰モデルであるMolT5-Baseより優れていることを示す。
本研究は,TGM-DLMが特定の性質を持つコヒーレントかつ精密な分子を産生し,薬物発見と関連する科学領域に新たな道を開くことの顕著な効果を裏付けるものである。
コードは、https://github.com/Deno-V/tgm-dlm.comでリリースされる。
関連論文リスト
- 3M-Diffusion: Latent Multi-Modal Diffusion for Text-Guided Generation of
Molecular Graphs [20.84977867473101]
本稿では,新しい分子グラフ生成法である3M-Diffusionを提案する。
本稿では,3M-Diffusionが提供したテキスト記述にセマンティックに適合する高品質で斬新で多様な分子グラフを生成できることを示す。
論文 参考訳(メタデータ) (2024-03-11T21:44:54Z) - Diffusion Language Models Generation Can Be Halted Early [4.726777092009553]
拡散言語モデル (DLMs) は, トラクタブル・コントロール可能生成における実用性から, テキスト生成の道のりとして有望である。
これら2種類の言語モデルのパフォーマンスギャップを減らす方法の1つは、DLMの生成を高速化することである。
本稿では,この問題に対処するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-18T08:56:05Z) - MolXPT: Wrapping Molecules with Text for Generative Pre-training [141.0924452870112]
MolXPTは、テキストでラップされたSMILESで事前訓練されたテキストと分子の統一言語モデルである。
MolXPT は MoleculeNet 上での分子特性予測の強いベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-18T03:58:19Z) - TESS: Text-to-Text Self-Conditioned Simplex Diffusion [56.881170312435444]
テキストからテキストへの自己条件付きSimplex Diffusionは、新しい形式のセルフコンディショニングを採用し、学習された埋め込み空間ではなく、ロジット単純空間に拡散プロセスを適用する。
我々は、TESSが最先端の非自己回帰モデルより優れており、性能の低下を最小限に抑えた拡散ステップを少なくし、事前訓練された自己回帰列列列列モデルと競合することを示した。
論文 参考訳(メタデータ) (2023-05-15T06:33:45Z) - Diffusion Models for Non-autoregressive Text Generation: A Survey [94.4634088113513]
非自己回帰(NAR)テキスト生成は自然言語処理の分野で大きな注目を集めている。
近年、拡散モデルがNARテキスト生成に導入され、テキスト生成品質が向上した。
論文 参考訳(メタデータ) (2023-03-12T05:11:09Z) - DiffusionBERT: Improving Generative Masked Language Models with
Diffusion Models [81.84866217721361]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。
本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。
非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-11-28T03:25:49Z) - Diffusion-LM Improves Controllable Text Generation [80.50044830018442]
言語モデル(LM)の振る舞いを再学習せずに制御することは、自然言語生成において大きな問題である。
拡散-LMと呼ばれる連続拡散に基づく非自己回帰型言語モデルを開発した。
本研究では,6つのきめ細粒度制御タスクに対してDiffusion-LMの制御に成功したことを実証した。
論文 参考訳(メタデータ) (2022-05-27T20:12:09Z) - Translation between Molecules and Natural Language [43.518805086280466]
本稿では,未ラベルの自然言語テキストや分子文字列の事前学習のための自己教師型学習フレームワークを提案する。
$textbfMolT5$は、分子キャプションやテキストベースのdenovo分子生成など、従来の視覚言語タスクの新しい、有用な、挑戦的なアナログを可能にする。
論文 参考訳(メタデータ) (2022-04-25T17:48:09Z) - MIMOSA: Multi-constraint Molecule Sampling for Molecule Optimization [66.84839948236478]
生成モデルと強化学習アプローチは、最初の成功をおさめたが、複数の薬物特性を同時に最適化する上で、依然として困難に直面している。
本稿では,MultI-Constraint MOlecule SAmpling (MIMOSA)アプローチ,初期推定として入力分子を用いるサンプリングフレームワーク,ターゲット分布からのサンプル分子を提案する。
論文 参考訳(メタデータ) (2020-10-05T20:18:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。