論文の概要: Retrieval-Augmented Foundation Models for Matched Molecular Pair Transformations to Recapitulate Medicinal Chemistry Intuition
- arxiv url: http://arxiv.org/abs/2602.16684v1
- Date: Wed, 18 Feb 2026 18:27:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.681465
- Title: Retrieval-Augmented Foundation Models for Matched Molecular Pair Transformations to Recapitulate Medicinal Chemistry Intuition
- Title(参考訳): 医薬化学直観の再カプセル化のための分子ペア変換の検索・拡張基礎モデル
- Authors: Bo Pan, Peter Zhiping Zhang, Hao-Wei Pang, Alex Zhu, Xiang Yu, Liying Zhang, Liang Zhao,
- Abstract要約: 本稿では,アナログ生成の可変・可変な定式化を提案し,大規模MP変換の基礎モデルを訓練する。
我々は、ユーザが生成時に好みの変換パターンを指定できるプロンプト機構を開発する。
一般的な化学コーパスと特許固有のデータセットの実験では、多様性、新規性、制御性が改善された。
- 参考スコア(独自算出の注目度): 11.475465740098683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Matched molecular pairs (MMPs) capture the local chemical edits that medicinal chemists routinely use to design analogs, but existing ML approaches either operate at the whole-molecule level with limited edit controllability or learn MMP-style edits from restricted settings and small models. We propose a variable-to-variable formulation of analog generation and train a foundation model on large-scale MMP transformations (MMPTs) to generate diverse variables conditioned on an input variable. To enable practical control, we develop prompting mechanisms that let the users specify preferred transformation patterns during generation. We further introduce MMPT-RAG, a retrieval-augmented framework that uses external reference analogs as contextual guidance to steer generation and generalize from project-specific series. Experiments on general chemical corpora and patent-specific datasets demonstrate improved diversity, novelty, and controllability, and show that our method recovers realistic analog structures in practical discovery scenarios.
- Abstract(参考訳): 一致した分子対 (MMPs) は、薬理学者がアナログを設計するのによく使う局所的な化学編集をキャプチャするが、既存のMLアプローチは、編集制御性に制限のある全分子レベルで動作するか、制限された設定や小さなモデルからMMPスタイルの編集を学ぶかのいずれかである。
本稿では,アナログ生成の可変変数の定式化を提案し,大規模MMP変換(MMPT)の基礎モデルを訓練し,入力変数に条件付き変数を生成する。
実用的な制御を実現するため,ユーザが生成時に好みの変換パターンを指定できるプロンプト機構を開発した。
さらに,外部参照アナログをコンテキストガイダンスとして用いる検索拡張フレームワークMMPT-RAGを導入し,プロジェクト固有のシリーズからスタイア生成と一般化を行う。
一般的なケミカルコーパスと特許固有のデータセットの実験により,多様性,ノベルティ,コントロール性が向上し,本手法が実際の発見シナリオにおいて現実的なアナログ構造を復元することを示す。
関連論文リスト
- Transformer-Based Approach for Automated Functional Group Replacement in Chemical Compounds [12.414301421345227]
官能基除去と置換のための新しい2段変圧器モデルを開発した。
分子全体を1つのパスで生成するワンショットアプローチとは異なり,本手法では官能基を逐次除去・付加する。
論文 参考訳(メタデータ) (2026-01-12T19:01:11Z) - Task-Specific Sparse Feature Masks for Molecular Toxicity Prediction with Chemical Language Models [5.563119267291969]
本稿では,精度と解釈可能性の両立を図るために,新しいマルチタスク学習(MTL)フレームワークを提案する。
我々のアーキテクチャは、共通化学言語モデルとタスク固有のアテンションモジュールを統合している。
これらのモジュールにL1のスパーシリティのペナルティを課すことにより、このフレームワークは個々の毒性エンドポイントに対して最小限の塩分分子フラグメントに焦点を絞ることに制約される。
論文 参考訳(メタデータ) (2025-12-12T09:41:04Z) - MoRE: Batch-Robust Multi-Omics Representations from Frozen Pre-trained Transformers [0.0]
本稿では, 凍結事前学習型トランスフォーマーを応用し, 不均一なアッセイを共有潜在空間に整列させるフレームワークであるMoRE(Multi-Omics Representation Embedding)を提案する。
特に、MoREは軽量でモジュラリティ固有のアダプタとタスク適応型融合層を冷凍バックボーンに取り付ける。
我々は、Scrublet を用いた scGPT, scVI, Harmony など、確立されたベースラインに対して MoRE をベンチマークし、統合忠実度、希少な人口検出、モダリティ伝達を評価した。
論文 参考訳(メタデータ) (2025-11-25T15:04:06Z) - GP-MoLFormer-Sim: Test Time Molecular Optimization through Contextual Similarity Guidance [29.578666490023057]
標的分子と類似性を保ちながら分子を設計する能力は、薬物発見、化学設計、生物学における様々な応用に不可欠である。
本稿では,生成化学言語モデル(CLM)を用いた分子空間からの効率的な学習・サンプリング法を紹介する。
本手法は,CLM自体から得られた文脈表現を利用して分子類似性を推定し,CLMの自己回帰サンプリング戦略を調整する。
論文 参考訳(メタデータ) (2025-06-05T23:09:33Z) - Learning Invariant Molecular Representation in Latent Discrete Space [52.13724532622099]
本稿では,分散シフトに対する不変性とロバスト性を示す分子表現を学習するための新しい枠組みを提案する。
我々のモデルは、様々な分布シフトが存在する場合に、最先端のベースラインに対してより強力な一般化を実現する。
論文 参考訳(メタデータ) (2023-10-22T04:06:44Z) - Learning Modulated Transformation in GANs [69.95217723100413]
生成逆数ネットワーク(GAN)のジェネレータに、変調変換モジュール(Modulated transformation module, MTM)と呼ばれるプラグアンドプレイモジュールを装備する。
MTMは、可変位置で畳み込み操作を適用可能な潜在符号の制御下で空間オフセットを予測する。
挑戦的なTaiChiデータセット上での人為的な生成に向けて、StyleGAN3のFIDを21.36から13.60に改善し、変調幾何変換の学習の有効性を実証した。
論文 参考訳(メタデータ) (2023-08-29T17:51:22Z) - Str2Str: A Score-based Framework for Zero-shot Protein Conformation
Sampling [23.74897713386661]
タンパク質の動的性質は、その生物学的機能や性質を決定するために重要である。
既存の学習ベースのアプローチでは、直接サンプリングを行うが、トレーニングにはターゲット固有のシミュレーションデータに大きく依存する。
ゼロショットコンフォーメーションサンプリングが可能な新しい構造間翻訳フレームワークStr2Strを提案する。
論文 参考訳(メタデータ) (2023-06-05T15:19:06Z) - Retrieval-based Controllable Molecule Generation [63.44583084888342]
制御可能な分子生成のための検索に基づく新しいフレームワークを提案する。
我々は、与えられた設計基準を満たす分子の合成に向けて、事前学習された生成モデルを操るために、分子の小さなセットを使用します。
提案手法は生成モデルの選択に非依存であり,タスク固有の微調整は不要である。
論文 参考訳(メタデータ) (2022-08-23T17:01:16Z) - Local manifold learning and its link to domain-based physics knowledge [53.15471241298841]
多くの反応系では、熱化学状態空間は低次元多様体(LDM)に近く進化すると仮定される。
局所的データクラスタ(ローカルPCA)に適用されたPCAは,熱化学状態空間の固有パラメータ化を検出することができることを示す。
論文 参考訳(メタデータ) (2022-07-01T09:06:25Z) - Improving Molecular Representation Learning with Metric
Learning-enhanced Optimal Transport [49.237577649802034]
分子レグレッション問題に対する一般化能力を高めるために,MROTと呼ばれる新しい最適輸送ベースアルゴリズムを開発した。
MROTは最先端のモデルよりも優れており、新しい物質の発見を加速する有望な可能性を示している。
論文 参考訳(メタデータ) (2022-02-13T04:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。