論文の概要: MolDA: Molecular Understanding and Generation via Large Language Diffusion Model
- arxiv url: http://arxiv.org/abs/2604.04403v1
- Date: Mon, 06 Apr 2026 04:04:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.08519
- Title: MolDA: Molecular Understanding and Generation via Large Language Diffusion Model
- Title(参考訳): MolDA: 大規模言語拡散モデルによる分子理解と生成
- Authors: Seohyeon Shin, HanJun Choi, Jun-Hyung Park, Hongkook Kim, Mansu Kim,
- Abstract要約: MolDAは、従来のARバックボーンを離散的なLarge Language Diffusion Modelに置き換える、新しいフレームワークである。
グローバルな構造的コヒーレンス、化学的妥当性、ロバストな推論を分子生成、キャプション、特性予測で保証する。
- 参考スコア(独自算出の注目度): 7.901276712572294
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) have significantly advanced molecular discovery, but existing multimodal molecular architectures fundamentally rely on autoregressive (AR) backbones. This strict left-to-right inductive bias is sub-optimal for generating chemically valid molecules, as it struggles to account for non-local global constraints (e.g., ring closures) and often accumulates structural errors during sequential generation. To address these limitations, we propose MolDA (Molecular language model with masked Diffusion with mAsking), a novel multimodal framework that replaces the conventional AR backbone with a discrete Large Language Diffusion Model. MolDA extracts comprehensive structural representations using a hybrid graph encoder, which captures both local and global topologies, and aligns them into the language token space via a Q-Former. Furthermore, we mathematically reformulate Molecular Structure Preference Optimization specifically for the masked diffusion. Through bidirectional iterative denoising, MolDA ensures global structural coherence, chemical validity, and robust reasoning across molecule generation, captioning, and property prediction.
- Abstract(参考訳): 大規模言語モデル(LLM)は分子の発見が著しく進んでいるが、既存のマルチモーダル分子アーキテクチャは基本的に自己回帰(AR)バックボーンに依存している。
この厳密な左から右への誘導バイアスは、非局所的な大域的制約(例えば環の閉包)を考慮に苦しむため、化学的に有効な分子を生成するための準最適である。
これらの制約に対処するため,従来のARバックボーンを個別の大規模言語拡散モデルに置き換えた新しいマルチモーダルフレームワークであるMolDA(マスク付き拡散を伴う分子言語モデル)を提案する。
MolDAは、局所的およびグローバルなトポロジをキャプチャするハイブリッドグラフエンコーダを使用して包括的な構造表現を抽出し、Q-Formerを介して言語トークン空間に整列する。
さらに,マスク拡散に特化して分子構造選好最適化を数学的に再構成する。
双方向反復 denoising により、モルダは分子生成、キャプション、特性予測において、グローバルな構造的コヒーレンス、化学的妥当性、堅牢な推論を保証する。
関連論文リスト
- From Tokens to Blocks: A Block-Diffusion Perspective on Molecular Generation [17.14830371749135]
GPTに基づく分子言語モデル(MLM)は、大規模データから化学構文と意味学を学ぶことで、強力な分子設計性能を示した。
本稿では,分子表現,モデルアーキテクチャ,ターゲット認識生成のための探索戦略を共同設計する統合フレームワークであるSoftMolを提案する。
ソフトモールは100%の化学的妥当性を達成し、結合親和性が9.7%向上し、分子多様性が2-3倍向上し、推論効率が6.6倍向上する。
論文 参考訳(メタデータ) (2026-01-29T16:42:24Z) - HyperDiffusionFields (HyDiF): Diffusion-Guided Hypernetworks for Learning Implicit Molecular Neural Fields [12.849722578846178]
我々は3次元分子コンホメータを連続体としてモデル化するフレームワークであるHyperDiffusionFields (HyDiF)を紹介した。
我々のアプローチの核となるのは分子方向場(MDF)であり、これは空間上の任意の点を特定のタイプの最も近い原子の向きにマッピングするベクトル場である。
我々のアプローチはより大きな生体分子にスケールし、フィールドベース分子モデリングの有望な方向を示す。
論文 参考訳(メタデータ) (2025-10-20T21:41:10Z) - Text-Guided Multi-Property Molecular Optimization with a Diffusion Language Model [20.250683535089617]
変換器を用いた拡散言語モデル(TransDLM)を用いたテキスト誘導多目的分子最適化手法を提案する。
物理的、化学的に詳細なセマンティクスを特異的な分子表現と融合することにより、TransDLMは様々な情報ソースを効果的に統合し、正確な最適化を導く。
論文 参考訳(メタデータ) (2024-10-17T14:30:27Z) - LDMol: A Text-to-Molecule Diffusion Model with Structurally Informative Latent Space Surpasses AR Models [55.5427001668863]
テキスト条件付き分子生成のための遅延拡散モデル LDMol を提案する。
実験の結果, LDMolはテキストから分子生成ベンチマークにおいて, 既存の自己回帰ベースラインよりも優れていた。
我々は,LDMolを分子間検索やテキスト誘導分子編集などの下流タスクに適用できることを示す。
論文 参考訳(メタデータ) (2024-05-28T04:59:13Z) - Domain-Agnostic Molecular Generation with Chemical Feedback [44.063584808910896]
MolGenは、分子生成に特化した事前訓練された分子言語モデルである。
1億以上の分子SELFIESを再構成することで構造的および文法的な洞察を内部化する。
我々の化学フィードバックパラダイムは、モデルを分子幻覚から遠ざけ、モデルの推定確率と実世界の化学的嗜好との整合性を確保する。
論文 参考訳(メタデータ) (2023-01-26T17:52:56Z) - MolCPT: Molecule Continuous Prompt Tuning to Generalize Molecular
Representation Learning [77.31492888819935]
分子表現学習のための「プリトレイン,プロンプト,ファインチューン」という新しいパラダイム,分子連続プロンプトチューニング(MolCPT)を提案する。
MolCPTは、事前訓練されたモデルを使用して、スタンドアロンの入力を表現的なプロンプトに投影するモチーフプロンプト関数を定義する。
いくつかのベンチマークデータセットの実験により、MollCPTは分子特性予測のために学習済みのGNNを効率的に一般化することが示された。
論文 参考訳(メタデータ) (2022-12-20T19:32:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。