論文の概要: STAR-VAE: Latent Variable Transformers for Scalable and Controllable Molecular Generation
- arxiv url: http://arxiv.org/abs/2511.02769v1
- Date: Tue, 04 Nov 2025 17:56:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.129877
- Title: STAR-VAE: Latent Variable Transformers for Scalable and Controllable Molecular Generation
- Title(参考訳): STAR-VAE:スケーラブルかつ制御可能な分子生成用潜時可変変圧器
- Authors: Bum Chul Kwon, Ben Shapira, Moshiko Raboh, Shreyans Sethi, Shruti Murarka, Joseph A Morrone, Jianying Hu, Parthasarathy Suryanarayanan,
- Abstract要約: 本稿では,STAR-VAE(Selfies-encoded, Transformer-based, AutoRegressive Variational Autotuning)を提案する。
PubChemの9900万の薬物様分子で、SELFIESを使用して、シナティクスの妥当性を保証する。
コントリビューションは, (i) SELFIES表現に基づいて訓練されたトランスフォーマーベースの潜在変数エンコーダ-デコーダモデル, (ii) 特性誘導生成のための条件付き潜在変数定式化, (iii) 両エンコーダにおけるローランクアダプタ(LoRA)による効率的な微調整である。
- 参考スコア(独自算出の注目度): 3.585036812627313
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The chemical space of drug-like molecules is vast, motivating the development of generative models that must learn broad chemical distributions, enable conditional generation by capturing structure-property representations, and provide fast molecular generation. Meeting the objectives depends on modeling choices, including the probabilistic modeling approach, the conditional generative formulation, the architecture, and the molecular input representation. To address the challenges, we present STAR-VAE (Selfies-encoded, Transformer-based, AutoRegressive Variational Auto Encoder), a scalable latent-variable framework with a Transformer encoder and an autoregressive Transformer decoder. It is trained on 79 million drug-like molecules from PubChem, using SELFIES to guarantee syntactic validity. The latent-variable formulation enables conditional generation: a property predictor supplies a conditioning signal that is applied consistently to the latent prior, the inference network, and the decoder. Our contributions are: (i) a Transformer-based latent-variable encoder-decoder model trained on SELFIES representations; (ii) a principled conditional latent-variable formulation for property-guided generation; and (iii) efficient finetuning with low-rank adapters (LoRA) in both encoder and decoder, enabling fast adaptation with limited property and activity data. On the GuacaMol and MOSES benchmarks, our approach matches or exceeds baselines, and latent-space analyses reveal smooth, semantically structured representations that support both unconditional exploration and property-aware generation. On the Tartarus benchmarks, the conditional model shifts docking-score distributions toward stronger predicted binding. These results suggest that a modernized, scale-appropriate VAE remains competitive for molecular generation when paired with principled conditioning and parameter-efficient finetuning.
- Abstract(参考訳): 薬物のような分子の化学空間は広大なものであり、幅広い化学分布を学習し、構造的優位性の表現を捉えて条件付き生成を可能にし、高速な分子生成をもたらす生成モデルの開発を動機付けている。
目的を満たすためには、確率的モデリングアプローチ、条件生成の定式化、アーキテクチャ、分子入力表現など、モデリングの選択に依存する。
この課題に対処するため,STAR-VAE(Selfies-encoded, Transformer-based, AutoRegressive Variational Auto Encoder)を提案する。
PubChemの9900万の薬物様分子で、SELFIESを使用して、シナティクスの妥当性を保証する。
特性予測器は、潜伏前と推論ネットワークとデコーダとに一貫した条件付け信号を供給する。
私たちの貢献は次のとおりです。
i) SELFIES表現に基づいて訓練されたトランスフォーマーベースの潜在変数エンコーダ-デコーダモデル
二 資産誘導発生のための原則付き条件付き潜伏変数の定式化
三 エンコーダとデコーダの両方においてローランクアダプタ(LoRA)を用いた効率的な微調整を行うことにより、限られた特性と活動データによる高速な適応を可能にする。
GuacaMol と MOSES のベンチマークでは、我々のアプローチはベースラインと一致しているか超え、潜在空間解析により、非条件探索とプロパティ認識の生成の両方をサポートする滑らかで意味的に構造化された表現が示される。
タルタルスのベンチマークでは、条件付きモデルはドッキングスコア分布をより強い予測結合にシフトさせる。
これらの結果から, 原理的条件付けとパラメータ効率の微調整を組み合わせれば, 改良されたスケール適合型VAEは分子生成の競争力を維持することが示唆された。
関連論文リスト
- Hyper-Transforming Latent Diffusion Models [13.183678451110938]
Inlicit Neural Representations (INR) と Transformer-based hypernetworks を潜在変数モデルに組み込むことにより,関数の新たな生成フレームワークを提案する。
我々のフレームワークは、標準デコーダをTransformerベースのハイパーネットワークに置き換えることで、潜在拡散モデル(LDM)をINR生成に拡張する。
これにより、既存の生成モデルを完全な再トレーニングを必要とせず、INRベースの表現に効率的に適応することができる。
論文 参考訳(メタデータ) (2025-04-23T10:01:18Z) - Molecule Design by Latent Prompt Transformer [76.2112075557233]
本研究は、分子設計の課題を条件付き生成モデリングタスクとしてフレーミングすることによって検討する。
本研究では,(1)学習可能な事前分布を持つ潜伏ベクトル,(2)プロンプトとして潜伏ベクトルを用いる因果トランスフォーマーに基づく分子生成モデル,(3)潜在プロンプトを用いた分子の目標特性および/または制約値を予測する特性予測モデルからなる新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2024-02-27T03:33:23Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Transformer-based Conditional Variational Autoencoder for Controllable
Story Generation [39.577220559911055]
ニューラルストーリー生成のための大規模潜時変数モデル (LVM) を, 生成効率と制御性という2つのスレッドで検討した。
我々は、トランスフォーマーの時代において、本質的に表現学習の力である潜在変数モデリングを復活させることを提唱する。
具体的には,遅延表現ベクトルをTransformerベースの事前学習アーキテクチャと統合し,条件付き変分オートエンコーダ(CVAE)を構築する。
論文 参考訳(メタデータ) (2021-01-04T08:31:11Z) - Self-Reflective Variational Autoencoder [21.054722609128525]
変分オートエンコーダ(VAE)は潜在変数生成モデルを学習するための強力なフレームワークである。
自己回帰推論(self-reflective inference)と呼ばれるソリューションを導入します。
実験では, 後部と後部を正確に一致させることの明確な利点を実証的に示す。
論文 参考訳(メタデータ) (2020-07-10T05:05:26Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。