論文の概要: Toward Better Geometric Representations for Molecule Generative Models
- arxiv url: http://arxiv.org/abs/2605.07693v1
- Date: Fri, 08 May 2026 13:02:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.056133
- Title: Toward Better Geometric Representations for Molecule Generative Models
- Title(参考訳): 分子生成モデルのための幾何学的表現の改善に向けて
- Authors: Shaoheng Yan, Zian Li, Cai Zhou, Qiaojing Huang, Kai Liu, Muhan Zhang,
- Abstract要約: LENSEsは、表現条件付き生成法における分子表現の可能性をうまく活用するフレームワークである。
分子生成タスクによるこれらの改善の有効性を実証する。
- 参考スコア(独自算出の注目度): 34.04020604759628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Geometric representation-conditioned molecule generation provides an effective paradigm that decouples molecule representation modeling from structure generation. By decoupling molecule generation into two stages-first generating a meaningful molecule representation, and then generating a 3D molecule conditioned on this representation-the efficiency and quality of the generation process can be significantly enhanced. However, its effectiveness is fundamentally limited by the quality of the representation space: pretrained molecular encoders, such as UniMol, produce representations that are non-smooth and not fully exploited during the generative training process. In this work, we propose LENSEs, a framework that better exploits the potential of molecule representations in representation-conditioned generation methods. In particular, LENSEs introduces three complementary mechanisms: (1) a representation head, simultaneously trained during generative tasks, that extracts multi-level representations from the pretrained encoder; (2) a molecule perceptual loss that optimizes the generator in a semantic-informative representation space; and (3) a node-level representation alignment (REPA) loss that explicitly aligns the generator's hidden states with encoder representations, reducing the semantic gap between pretraining and generation. We demonstrate the effectiveness of these improvements through extensive molecule generation tasks. Specifically, on the challenging molecule generation dataset GEOM-DRUG, LENSEs achieves 97.28% validity and 98.51% molecule stability, surpassing existing advanced methods. Further analyses through Lipschitz constant reduction (4.6x) and QM9 probing tasks also demonstrate the smoother, more informative refined representations, establishing generative training with alignment objectives as a potential pretraining paradigm for molecular encoders.
- Abstract(参考訳): 幾何学的表現条件付き分子生成は、分子表現モデリングを構造生成から切り離す効果的なパラダイムを提供する。
分子生成を2段階に分離して有意義な分子表現を生成し、この表現に基づいて条件付けられた3D分子を生成することにより、生成プロセスの効率と品質を著しく向上させることができる。
しかし、その効果は表現空間の質によって基本的に制限されており、UniMolのような事前訓練された分子エンコーダは、生成的学習過程において非滑らかで完全に活用されていない表現を生成する。
本研究では,表現条件付き生成法における分子表現の可能性をよりよく活用するフレームワークであるLENSEsを提案する。
特に、LENSEsは、(1)事前訓練されたエンコーダから多レベル表現を抽出する表現ヘッド、(2)意味的不変表現空間においてジェネレータを最適化する分子知覚的損失、(3)ジェネレータの隠れ状態とエンコーダ表現を明示的に整列するノードレベル表現アライメントアライメントアライメント(REPA)の3つの相補的なメカニズムを導入し、前訓練と生成の間の意味的ギャップを小さくする。
分子生成タスクによるこれらの改善の有効性を実証する。
具体的には、挑戦的な分子生成データセットGEOM-DRUGにおいて、LENSEsは97.28%の妥当性と98.51%の分子安定性を達成し、既存の高度な手法を超越している。
リプシッツ定数減少(4.6x)およびQM9探索タスクによるさらなる解析により、より滑らかでより情報に富んだ表現が示され、分子エンコーダの潜在的な事前訓練パラダイムとしてアライメント目的による生成的トレーニングが確立された。
関連論文リスト
- Conditional Synthesis of 3D Molecules with Time Correction Sampler [58.0834973489875]
Time-Aware Conditional Synthesis (TACS) は拡散モデルにおける条件生成の新しい手法である。
適応的に制御されたプラグアンドプレイの"オンライン"ガイダンスを拡散モデルに統合し、サンプルを所望の特性に向けて駆動する。
論文 参考訳(メタデータ) (2024-11-01T12:59:25Z) - Geometric Representation Condition Improves Equivariant Molecule Generation [24.404588237915732]
我々は、幾何学的表現条件と証明可能な理論的保証を統合することにより、分子生成モデルを改善するための一般的な枠組みを導入する。
生成過程を2つの段階に分解する。まず,情報的幾何学的表現を生成する。
我々は、広く使われているQM9およびGEOM-DRUGデータセット上で、無条件分子生成の大幅な品質改善を観察した。
論文 参考訳(メタデータ) (2024-10-04T17:57:35Z) - Data-Efficient Molecular Generation with Hierarchical Textual Inversion [48.816943690420224]
分子生成のための階層型テキスト変換法 (HI-Mol) を提案する。
HI-Molは分子分布を理解する上での階層的情報、例えば粗い特徴ときめ細かい特徴の重要性にインスパイアされている。
単一レベルトークン埋め込みを用いた画像領域の従来のテキストインバージョン法と比較して, マルチレベルトークン埋め込みにより, 基礎となる低ショット分子分布を効果的に学習することができる。
論文 参考訳(メタデータ) (2024-05-05T08:35:23Z) - Molecule Design by Latent Prompt Transformer [76.2112075557233]
本研究は、分子設計の課題を条件付き生成モデリングタスクとしてフレーミングすることによって検討する。
本研究では,(1)学習可能な事前分布を持つ潜伏ベクトル,(2)プロンプトとして潜伏ベクトルを用いる因果トランスフォーマーに基づく分子生成モデル,(3)潜在プロンプトを用いた分子の目標特性および/または制約値を予測する特性予測モデルからなる新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2024-02-27T03:33:23Z) - Self-Supervised Graph Transformer on Large-Scale Molecular Data [73.3448373618865]
分子表現学習のための新しいフレームワークGROVERを提案する。
GROVERは、分子の豊富な構造的および意味的な情報を、巨大な未標識分子データから学習することができる。
分子表現学習において、最大のGNNであり、最大のトレーニングデータセットである、1000万個の未標識分子に1億のパラメータを持つGROVERを事前訓練します。
論文 参考訳(メタデータ) (2020-06-18T08:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。