論文の概要: Automating reward function configuration for drug design
- arxiv url: http://arxiv.org/abs/2312.09865v1
- Date: Fri, 15 Dec 2023 15:09:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 15:17:18.463950
- Title: Automating reward function configuration for drug design
- Title(参考訳): 薬物設計のための報酬機能設定の自動化
- Authors: Marius Urbonas, Temitope Ajileye, Paul Gainer and Douglas Pires
- Abstract要約: 本稿では,実験データのみに依存する自動報酬設定のための新しい手法を提案する。
提案アルゴリズムは,人間の定義した関数の精度を予測的に上回る報酬関数を生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing reward functions that guide generative molecular design (GMD)
algorithms to desirable areas of chemical space is of critical importance in
AI-driven drug discovery. Traditionally, this has been a manual and error-prone
task; the selection of appropriate computational methods to approximate
biological assays is challenging and the aggregation of computed values into a
single score even more so, leading to potential reliance on trial-and-error
approaches. We propose a novel approach for automated reward configuration that
relies solely on experimental data, mitigating the challenges of manual reward
adjustment on drug discovery projects. Our method achieves this by constructing
a ranking over experimental data based on Pareto dominance over the
multi-objective space, then training a neural network to approximate the reward
function such that rankings determined by the predicted reward correlate with
those determined by the Pareto dominance relation. We validate our method using
two case studies. In the first study we simulate Design-Make-Test-Analyse
(DMTA) cycles by alternating reward function updates and generative runs guided
by that function. We show that the learned function adapts over time to yield
compounds that score highly with respect to evaluation functions taken from the
literature. In the second study we apply our algorithm to historical data from
four real drug discovery projects. We show that our algorithm yields reward
functions that outperform the predictive accuracy of human-defined functions,
achieving an improvement of up to 0.4 in Spearman's correlation against a
ground truth evaluation function that encodes the target drug profile for that
project. Our method provides an efficient data-driven way to configure reward
functions for GMD, and serves as a strong baseline for future research into
transformative approaches for the automation of drug discovery.
- Abstract(参考訳): 生成分子設計(GMD)アルゴリズムを化学空間の望ましい領域に導く報酬関数の設計は、AIによる薬物発見において重要である。
生物学的アッセイを近似する適切な計算方法の選択は困難であり、計算された値を1つのスコアにまとめることはさらに困難であり、試行錯誤のアプローチに依存する可能性がある。
薬物発見プロジェクトにおける手動報酬調整の課題を軽減し,実験データのみに依存する自動報酬設定のための新しい手法を提案する。
提案手法は,多目的空間上でのパレート支配に基づく実験データよりも上位のランキングを構築し,予測報酬によって決定されるランキングとパレート支配関係によって決定されるランキングとが相関するような報酬関数をニューラルネットワークで近似する。
本手法を2つのケーススタディで検証した。
最初の研究では、報酬関数の更新と、その関数で導かれる生成実行を交互に行い、DMTAサイクルをシミュレートする。
文献から得られた評価関数に対して高いスコアの化合物を得るために,学習関数が時間とともに適応することを示す。
第2の研究では、本アルゴリズムを4つの実薬発見プロジェクトの履歴データに適用する。
提案手法では,提案手法が人的定義関数の予測精度を上回り,目標薬物プロファイルを符号化する基礎的真理評価関数に対するスピアマン相関の最大0.4向上を実現していることを示す。
本手法は,GMDの報酬関数を構成する効率的なデータ駆動方式を提供し,医薬品発見の自動化に向けた変革的アプローチの強力な基盤となる。
関連論文リスト
- Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。
本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。
パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文 参考訳(メタデータ) (2024-03-31T11:39:11Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient Kernels [57.46832672991433]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。
カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。
我々は,効率的な後部推論と関数推定のための予測伝搬予測最大化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-09T03:55:09Z) - Drug Discovery under Covariate Shift with Domain-Informed Prior
Distributions over Functions [30.305418761024143]
実世界の薬物発見タスクは、しばしばラベル付きデータの不足とかなりの範囲のデータによって特徴づけられる。
我々は、データ生成プロセスの明示的な事前知識を事前分布にエンコードする原理的な方法を提案する。
我々は,Q-SAVIを組み込んで,事前知識のような化学空間をモデリングプロセスに組み込むことで,相当な精度と校正が可能であることを実証した。
論文 参考訳(メタデータ) (2023-07-14T05:01:10Z) - FAStEN: An Efficient Adaptive Method for Feature Selection and Estimation in High-Dimensional Functional Regressions [7.674715791336311]
本稿では,スパース関数オン・ファンクション回帰問題において特徴選択を行うための,新しい,柔軟な,超効率的なアプローチを提案する。
我々はそれをスカラー・オン・ファンクション・フレームワークに拡張する方法を示す。
AOMIC PIOP1による脳MRIデータへの応用について述べる。
論文 参考訳(メタデータ) (2023-03-26T19:41:17Z) - MetaRF: Differentiable Random Forest for Reaction Yield Prediction with
a Few Trails [58.47364143304643]
本稿では,反応収率予測問題に焦点をあてる。
筆者らはまず,数発の収量予測のために特別に設計された,注意に基づく識別可能なランダム森林モデルであるMetaRFを紹介した。
数発の学習性能を改善するために,さらに次元還元に基づくサンプリング手法を導入する。
論文 参考訳(メタデータ) (2022-08-22T06:40:13Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Categorical EHR Imputation with Generative Adversarial Nets [11.171712535005357]
本稿では,データ計算のためのGANに関する従来の研究を基にした,シンプルで効果的な手法を提案する。
従来のデータ計算手法に比べて予測精度が大幅に向上していることを示す。
論文 参考訳(メタデータ) (2021-08-03T18:50:26Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。