論文の概要: SiDGen: Structure-informed Diffusion for Generative modeling of Ligands for Proteins
- arxiv url: http://arxiv.org/abs/2511.09529v1
- Date: Thu, 13 Nov 2025 02:00:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.608732
- Title: SiDGen: Structure-informed Diffusion for Generative modeling of Ligands for Proteins
- Title(参考訳): SiDGen:タンパク質のリガンド生成モデルのための構造インフォームド拡散
- Authors: Samyak Sanghvi, Nishant Ranjan, Tarak Karmakar,
- Abstract要約: マスク付きSMILES生成とポケット認識のための軽量な折りたたみ機能を統合したタンパク質条件拡散フレームワークSiDGenを提案する。
SiDGenは、タンパク質の埋め込みから粗い構造信号をプールする合理化モードと、より強い結合のために局所化された対のバイアスを注入するフルモードの2つの条件付けパスをサポートしている。
自動ベンチマークでは、SiDGenは高い妥当性、一意性、新規性を生み出し、ドッキングベースの評価において競合性能を達成し、適切な分子特性を維持する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Designing ligands that are both chemically valid and structurally compatible with protein binding pockets is a key bottleneck in computational drug discovery. Existing approaches either ignore structural context or rely on expensive, memory-intensive encoding that limits throughput and scalability. We present SiDGen (Structure-informed Diffusion Generator), a protein-conditioned diffusion framework that integrates masked SMILES generation with lightweight folding-derived features for pocket awareness. To balance expressivity with efficiency, SiDGen supports two conditioning pathways: a streamlined mode that pools coarse structural signals from protein embeddings and a full mode that injects localized pairwise biases for stronger coupling. A coarse-stride folding mechanism with nearest-neighbor upsampling alleviates the quadratic memory costs of pair tensors, enabling training on realistic sequence lengths. Learning stability is maintained through in-loop chemical validity checks and an invalidity penalty, while large-scale training efficiency is restored \textit{via} selective compilation, dataloader tuning, and gradient accumulation. In automated benchmarks, SiDGen generates ligands with high validity, uniqueness, and novelty, while achieving competitive performance in docking-based evaluations and maintaining reasonable molecular properties. These results demonstrate that SiDGen can deliver scalable, pocket-aware molecular design, providing a practical route to conditional generation for high-throughput drug discovery.
- Abstract(参考訳): 化学的に有効であり、タンパク質結合ポケットと構造的に互換性のあるリガンドを設計することは、計算薬物発見における重要なボトルネックである。
既存のアプローチでは、構造的コンテキストを無視したり、スループットとスケーラビリティを制限する高価なメモリ集約型エンコーディングに依存している。
マスク付きSMILES生成とポケット認識のための軽量な折りたたみ機能を統合したタンパク質条件拡散フレームワークであるSiDGenについて述べる。
表現力と効率のバランスをとるために、SiDGenは2つの条件付け経路をサポートしている:タンパク質の埋め込みから粗い構造信号をプールする合理化モードと、より強い結合のために局所化された対のバイアスを注入するフルモードである。
隣り合うアップサンプリングを持つ粗いストライド折り畳み機構は、ペアテンソルの二次記憶コストを軽減し、現実的なシーケンス長のトレーニングを可能にする。
学習の安定性は、ループ内の化学的妥当性チェックと無効性ペナルティを通じて維持され、大規模なトレーニング効率は、選択的なコンパイル、データローダチューニング、勾配蓄積によって回復される。
自動ベンチマークでは、SiDGenは高い妥当性、特異性、新規性を持つ配位子を生成し、ドッキングベースの評価において競合性能を達成し、適切な分子特性を維持する。
これらの結果は、SiDGenがスケーラブルでポケット対応の分子設計を提供し、高スループットな薬物発見のための条件生成への実践的な経路を提供することを示す。
関連論文リスト
- S$^2$Drug: Bridging Protein Sequence and 3D Structure in Contrastive Representation Learning for Virtual Screening [72.89086338778098]
タンパク質リガンドコントラスト表現学習のための2段階フレームワークを提案する。
最初の段階では、ESM2ベースのバックボーンを用いて、ChemBLでタンパク質配列を事前訓練する。
第2段階では、残基レベルゲーティングモジュールを介して配列と構造情報を融合することでPDBBindを微調整する。
この補助的なタスクは、モデルを誘導し、タンパク質配列内の結合残基を正確に局在させ、それらの3次元空間配列をキャプチャする。
論文 参考訳(メタデータ) (2025-11-10T11:57:47Z) - A Novel Framework for Multi-Modal Protein Representation Learning [13.33566214386641]
2つのコア機構に対処する統合フレームワークであるDAMPE(Diffused and Aligned Multi-modal Protein Embedding)を提案する。
まず、異なるモードの内在的な埋め込み空間間の対応性を確立するための最適輸送(OT)に基づく表現アライメントを提案する。
次に,条件付きグラフ生成(CGG)に基づく情報融合手法を開発した。
論文 参考訳(メタデータ) (2025-10-27T12:33:01Z) - ProteinAE: Protein Diffusion Autoencoders for Structure Encoding [64.77182442408254]
本稿では,新規かつ合理化されたタンパク質拡散オートエンコーダであるProteinAEを紹介する。
プロテインAEは、タンパク質のバックボーン座標を直接E(3)から連続的でコンパクトな潜在空間にマッピングする。
本研究では,既存のオートエンコーダよりも優れた,最先端の再構築品質を実現することを実証する。
論文 参考訳(メタデータ) (2025-10-12T14:30:32Z) - NIRVANA: Structured pruning reimagined for large language models compression [50.651730342011014]
直近のゼロショット保存精度と頑健な微調整のバランスをとるために, NIRVANAを導入した。
構造化プルーニングによって引き起こされる固有の課題にさらに対処するため、NIRVANAは層やモジュール間の適応的な空間割当機構を取り入れている。
Llama3, Qwen, T5モデルで行った実験では、NIRVANAは等価な空間制約の下で既存の構造化プルーニング法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-17T17:59:00Z) - ReDiSC: A Reparameterized Masked Diffusion Model for Scalable Node Classification with Structured Predictions [64.17845687013434]
本稿では,構造化ノード分類のための構造拡散モデルであるReDiSCを提案する。
本稿では,ReDiSCが最先端のGNN,ラベル伝搬,拡散ベースラインと比較して,優れた,あるいは高い競争力を発揮することを示す。
特にReDiSCは、従来の構造化拡散法が計算制約によって失敗する大規模データセットに効果的にスケールする。
論文 参考訳(メタデータ) (2025-07-19T04:46:53Z) - Reimagining Target-Aware Molecular Generation through Retrieval-Enhanced Aligned Diffusion [22.204642926984526]
Retrieval-Augmented GenerationとSE(3)-同変拡散モデルとを融合した最初のREADが導入された。
CBGBenchでは非常に競争力があり、最先端のジェネレーティブモデルやネイティブな足場を超越している。
論文 参考訳(メタデータ) (2025-06-17T13:09:11Z) - Energy-Based Coarse-Graining in Molecular Dynamics: A Flow-Based Framework without Data [0.0]
粗粒モデル(CG)は分子シミュレーションの複雑さを減らす効果的な経路を提供する。
本稿では,全原子ボルツマン分布を直接対象とするCGのための完全データフリーな生成フレームワークを提案する。
本手法はボルツマン分布のすべてのモードを捕捉し、原子配置を再構成し、自動的に物理的に意味のあるCG表現を学習することを示す。
論文 参考訳(メタデータ) (2025-04-29T17:05:27Z) - Fast and Accurate Blind Flexible Docking [79.88520988144442]
小分子(配位子)のタンパク質標的への結合構造を予測する分子ドッキングは、薬物発見において重要な役割を果たす。
本研究では,現実的な視覚的フレキシブルドッキングシナリオを対象とした,高速かつ高精度な回帰ベースマルチタスク学習モデルであるFABFlexを提案する。
論文 参考訳(メタデータ) (2025-02-20T07:31:13Z) - The Latent Road to Atoms: Backmapping Coarse-grained Protein Structures with Latent Diffusion [19.85659309869674]
潜伏拡散バックマッピング(LDB)は、これらの課題に対処するために潜伏空間内での拡散をデノナイズする新しいアプローチである。
3つの異なるタンパク質データセット上でLDBの最先端性能を評価する。
計算生物学におけるCGシミュレーションと原子レベル解析のギャップを効果的に埋め、LDBをバックマッピングのための強力でスケーラブルなアプローチとして位置づけた。
論文 参考訳(メタデータ) (2024-10-17T06:38:07Z) - Protein Design with Guided Discrete Diffusion [67.06148688398677]
タンパク質設計における一般的なアプローチは、生成モデルと条件付きサンプリングのための識別モデルを組み合わせることである。
離散拡散モデルのためのガイダンス手法であるdiffusioN Optimized Smpling (NOS)を提案する。
NOSは、構造に基づく手法の重要な制限を回避し、シーケンス空間で直接設計を行うことができる。
論文 参考訳(メタデータ) (2023-05-31T16:31:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。