論文の概要: Informing Acquisition Functions via Foundation Models for Molecular Discovery
- arxiv url: http://arxiv.org/abs/2512.13935v1
- Date: Mon, 15 Dec 2025 22:19:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.514336
- Title: Informing Acquisition Functions via Foundation Models for Molecular Discovery
- Title(参考訳): 分子発見のための基礎モデルによる獲得関数のインフォームド
- Authors: Qi Chen, Fabio Ramos, Alán Aspuru-Guzik, Florian Shkurti,
- Abstract要約: 本稿では, 明示的な代理モデリングを回避し, 一般LLMや化学特異的基礎モデルからの事前情報を直接活用して, 取得関数を通知する可能性のないBO法を提案する。
また,分子探索空間の木構造分割を局所的獲得関数で学習し,モンテカルロ木探索による効率的な候補選択を可能にする。
- 参考スコア(独自算出の注目度): 23.39033856519757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bayesian Optimization (BO) is a key methodology for accelerating molecular discovery by estimating the mapping from molecules to their properties while seeking the optimal candidate. Typically, BO iteratively updates a probabilistic surrogate model of this mapping and optimizes acquisition functions derived from the model to guide molecule selection. However, its performance is limited in low-data regimes with insufficient prior knowledge and vast candidate spaces. Large language models (LLMs) and chemistry foundation models offer rich priors to enhance BO, but high-dimensional features, costly in-context learning, and the computational burden of deep Bayesian surrogates hinder their full utilization. To address these challenges, we propose a likelihood-free BO method that bypasses explicit surrogate modeling and directly leverages priors from general LLMs and chemistry-specific foundation models to inform acquisition functions. Our method also learns a tree-structured partition of the molecular search space with local acquisition functions, enabling efficient candidate selection via Monte Carlo Tree Search. By further incorporating coarse-grained LLM-based clustering, it substantially improves scalability to large candidate sets by restricting acquisition function evaluations to clusters with statistically higher property values. We show through extensive experiments and ablations that the proposed method substantially improves scalability, robustness, and sample efficiency in LLM-guided BO for molecular discovery.
- Abstract(参考訳): ベイズ最適化(英: Bayesian Optimization、BO)は、分子からそれらの性質へのマッピングを推定し、最適な候補を求めながら分子発見を促進するための重要な手法である。
通常、BOはこのマッピングの確率的サロゲートモデルを反復的に更新し、モデルから派生した獲得関数を最適化し、分子選択を導出する。
しかし、その性能は、事前知識の不足と膨大な候補空間を持つ低データレジームに限られている。
大規模言語モデル(LLM)と化学基礎モデル(英語版)はBOを強化するための豊富な事前情報を提供するが、高次元の特徴、高コストな文脈学習、深いベイズサロゲートの計算負担は、その完全な利用を妨げる。
これらの課題に対処するために、明示的な代理モデリングを回避し、一般的なLCMや化学固有の基礎モデルからの事前情報を直接活用し、取得関数を通知する可能性のないBO法を提案する。
また,分子探索空間の木構造分割を局所的獲得関数で学習し,モンテカルロ木探索による効率的な候補選択を可能にする。
粗粒度LCMクラスタリングをさらに取り入れることで、統計的に高い特性値を持つクラスタに対する取得関数の評価を制限することにより、大きな候補集合に対するスケーラビリティを大幅に向上する。
分子発見のためのLCM誘導BOにおける拡張性, 堅牢性, 試料効率を大幅に向上することを示す。
関連論文リスト
- Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。
PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文 参考訳(メタデータ) (2024-07-18T17:35:32Z) - Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF [82.7679132059169]
人間のフィードバックから強化学習が言語モデルのアライメントのための中心的なツールとして登場した。
我々は、RLHFにおけるオンライン探索のための新しいアルゴリズム、Exploratory Preference Optimization (XPO)を提案する。
XPOは証明可能な最強の保証と有望な経験的パフォーマンスを享受しています。
論文 参考訳(メタデータ) (2024-05-31T17:39:06Z) - Model Extrapolation Expedites Alignment [135.12769233630362]
本研究では,人選好によるアライメントトレーニングを迅速化するExPOという手法を提案する。
我々は、ExPOがトレーニングされたDPOモデルを20%のステップで強化し、完全に訓練されたモデルを上回ることを実証した。
ExPO は AlpacaEval 2.0 と MT-Bench ベンチマークにおいて,既存のオープンソース LLM を特に改善している。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - Large Language Models to Enhance Bayesian Optimization [57.474613739645605]
本稿では,大規模言語モデル(LLM)の能力をベイズ最適化に組み込む新しいアプローチであるLLAMBOを提案する。
高いレベルでは、自然言語のBO問題を枠組み化し、LLMが歴史的評価に照らした有望な解を反復的に提案し、評価することを可能にする。
以上の結果から,LLAMBOはゼロショットウォームスタートに有効であり,サロゲートモデリングや候補サンプリングの促進,特に観察が不十分な場合の探索の初期段階において有効であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T11:44:06Z) - Accelerating Black-Box Molecular Property Optimization by Adaptively
Learning Sparse Subspaces [0.0]
提案手法は,様々なベンチマークや実世界の問題において,既存のMPO手法よりも大幅に優れていることを示す。
具体的には,100ドル未満のクエリで100ドル以上の代替品の集合から,ほぼ最適分子を定期的に見つけることができることを示す。
論文 参考訳(メタデータ) (2024-01-02T18:34:29Z) - DrugAssist: A Large Language Model for Molecule Optimization [29.95488215594247]
DrugAssistは、人間と機械の対話を通じて最適化を行う対話型分子最適化モデルである。
DrugAssistは、単一および複数プロパティの最適化において、主要な結果を得た。
分子最適化タスクの微調整言語モデルのための,MomoOpt-Instructionsと呼ばれる大規模命令ベースデータセットを公開している。
論文 参考訳(メタデータ) (2023-12-28T10:46:56Z) - Beam Enumeration: Probabilistic Explainability For Sample Efficient
Self-conditioned Molecular Design [0.4769602527256662]
生成分子設計は概念実証から現実の応用へと移行してきた。
説明可能性とサンプル効率の主な課題は、生成設計を強化する機会である。
ビームは一般に言語に基づく分子生成モデルに適用できる。
論文 参考訳(メタデータ) (2023-09-25T08:43:13Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - ALMERIA: Boosting pairwise molecular contrasts with scalable methods [0.0]
ALMERIAは、一対の分子コントラストに基づく化合物の類似性と活性予測を推定するためのツールである。
大量のデータを利用するスケーラブルなソフトウェアと手法を使って実装されている。
分子活性予測の最先端性能を示す実験を行った。
論文 参考訳(メタデータ) (2023-04-28T16:27:06Z) - CASTELO: Clustered Atom Subtypes aidEd Lead Optimization -- a combined
machine learning and molecular modeling method [2.8381402107366034]
我々は、リード最適化ワークフローを自動化する機械学習と分子モデリングを組み合わせたアプローチを提案する。
本手法は, 薬剤の有効性向上に有効な, ホットスポットの新規なヒントを提供する。
論文 参考訳(メタデータ) (2020-11-27T15:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。