論文の概要: Graph Diffusion Transformers are In-Context Molecular Designers
- arxiv url: http://arxiv.org/abs/2510.08744v1
- Date: Thu, 09 Oct 2025 18:56:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.508242
- Title: Graph Diffusion Transformers are In-Context Molecular Designers
- Title(参考訳): グラフ拡散変換器はインコンテキスト分子デザイナである
- Authors: Gang Liu, Jie Chen, Yihan Zhu, Michael Sun, Tengfei Luo, Nitesh V Chawla, Meng Jiang,
- Abstract要約: コンテキスト内学習は、いくつかのデモから新しいタスクに適応することができるが、分子設計での成功は限られている。
実験条件付き拡散モデル(DemoDiff)を導入し、テキスト記述の代わりに分子スコアの小さな例を用いてタスクコンテキストを定義する。
6つのカテゴリにおける33の設計タスクのうち、DemoDiffは100-1000$times$より大きく、ドメイン固有のアプローチでは5.25-10.20よりも平均3.63ランクに達する。
- 参考スコア(独自算出の注目度): 44.44344083386807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning allows large models to adapt to new tasks from a few demonstrations, but it has shown limited success in molecular design. Existing databases such as ChEMBL contain molecular properties spanning millions of biological assays, yet labeled data for each property remain scarce. To address this limitation, we introduce demonstration-conditioned diffusion models (DemoDiff), which define task contexts using a small set of molecule-score examples instead of text descriptions. These demonstrations guide a denoising Transformer to generate molecules aligned with target properties. For scalable pretraining, we develop a new molecular tokenizer with Node Pair Encoding that represents molecules at the motif level, requiring 5.5$\times$ fewer nodes. We curate a dataset containing millions of context tasks from multiple sources covering both drugs and materials, and pretrain a 0.7-billion-parameter model on it. Across 33 design tasks in six categories, DemoDiff matches or surpasses language models 100-1000$\times$ larger and achieves an average rank of 3.63 compared to 5.25-10.20 for domain-specific approaches. These results position DemoDiff as a molecular foundation model for in-context molecular design. Our code is available at https://github.com/liugangcode/DemoDiff.
- Abstract(参考訳): コンテキスト内学習は、大規模なモデルでいくつかのデモから新しいタスクに適応することを可能にするが、分子設計における成功は限られている。
既存のChEMBLのようなデータベースには、数百万の生物学的アッセイにまたがる分子特性が含まれているが、それぞれの性質に関するラベル付きデータはほとんど残っていない。
この制限に対処するために、テキスト記述の代わりに分子スコアの小さな例を用いてタスクコンテキストを定義するデモ条件拡散モデル(DemoDiff)を導入する。
これらのデモは、デノナイジングトランスフォーマーを誘導し、ターゲット特性に整列した分子を生成する。
スケーラブルな事前トレーニングのために、我々は5.5$\times$少ないノードで分子をモチーフレベルで表現するNode Pair Encodingを用いた新しい分子トークンを開発した。
我々は、医薬品と材料の両方をカバーする複数のソースから何百万ものコンテキストタスクを含むデータセットをキュレートし、その上に0.7ビリオンパラメーターモデルを事前訓練する。
6つのカテゴリにおける33の設計タスクのうち、DemoDiffは100-1000$\times$より大きく、ドメイン固有のアプローチでは5.25-10.20よりも平均3.63ランクに達する。
これらの結果は、DemoDiffをインコンテキスト分子設計の分子基盤モデルとして位置づけている。
私たちのコードはhttps://github.com/liugangcode/DemoDiff.comから入手可能です。
関連論文リスト
- MolTextNet: A Two-Million Molecule-Text Dataset for Multimodal Molecular Learning [15.083985098119202]
MolTextNetは、250万の高品質な分子テキストペアのデータセットである。
我々は、ChEMBL35から250万分子の構造的記述を作成し、テキストは以前のデータセットの10倍以上の長さである。
論文 参考訳(メタデータ) (2025-05-15T19:50:11Z) - nach0-pc: Multi-task Language Model with Molecular Point Cloud Encoder [8.125243669908318]
nach0-pcは、ドメイン固有のエンコーダとテキスト表現を組み合わせて、原子の空間配置を効果的に処理するモデルである。
本稿では,空間分子構造データセットから知識を抽出するための,分子点雲のための新しい事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-11T20:30:44Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [49.64512917330373]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - AdaMR: Adaptable Molecular Representation for Unified Pre-training Strategy [11.710702202071573]
分子調節性表現(AdaMR)と呼ばれる,小分子薬物の大規模均一事前学習戦略を提案する。
AdaMRは、分子正準化と呼ばれる事前訓練ジョブによって達成される粒度調整可能な分子エンコーディング戦略を利用する。
6つの分子特性予測タスクと2つの生成タスクに関する事前学習モデルを微調整し、8つのタスクのうち5つについてSOTA(State-of-the-art)の結果を得た。
論文 参考訳(メタデータ) (2023-12-28T10:53:17Z) - GIMLET: A Unified Graph-Text Model for Instruction-Based Molecule
Zero-Shot Learning [71.89623260998934]
本研究は,ゼロショット環境下での分子関連タスクの実現に自然言語命令を用いることの実現可能性について検討する。
既存の分子テキストモデルは、命令の不十分な処理とグラフの限られた容量のために、この設定では性能が良くない。
グラフデータとテキストデータの両方の言語モデルを統合するGIMLETを提案する。
論文 参考訳(メタデータ) (2023-05-28T18:27:59Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Translation between Molecules and Natural Language [43.518805086280466]
本稿では,未ラベルの自然言語テキストや分子文字列の事前学習のための自己教師型学習フレームワークを提案する。
$textbfMolT5$は、分子キャプションやテキストベースのdenovo分子生成など、従来の視覚言語タスクの新しい、有用な、挑戦的なアナログを可能にする。
論文 参考訳(メタデータ) (2022-04-25T17:48:09Z) - Data-Efficient Graph Grammar Learning for Molecular Generation [41.936515793383]
本稿では,一般的なベンチマークよりも小さなサイズのデータセットから学習可能な,データ効率のよい生成モデルを提案する。
学習したグラフ文法は、3つのモノマーデータセットに対して高品質な分子を生成するための最先端の結果をもたらす。
また, 本手法は, トレーニングサンプル117ドルで, 難易度の高いポリマー生成タスクにおいて, 顕著な性能を実現している。
論文 参考訳(メタデータ) (2022-03-15T16:14:30Z) - Self-Supervised Graph Transformer on Large-Scale Molecular Data [73.3448373618865]
分子表現学習のための新しいフレームワークGROVERを提案する。
GROVERは、分子の豊富な構造的および意味的な情報を、巨大な未標識分子データから学習することができる。
分子表現学習において、最大のGNNであり、最大のトレーニングデータセットである、1000万個の未標識分子に1億のパラメータを持つGROVERを事前訓練します。
論文 参考訳(メタデータ) (2020-06-18T08:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。