論文の概要: Case-Guided Sequential Assay Planning in Drug Discovery
- arxiv url: http://arxiv.org/abs/2601.14710v1
- Date: Wed, 21 Jan 2026 06:58:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.267962
- Title: Case-Guided Sequential Assay Planning in Drug Discovery
- Title(参考訳): 医薬品発見におけるケースガイド型シークエンシャルアッセイ計画
- Authors: Tianchi Chen, Jan Bima, Sean L. Wu, Otto Ritter, Bingjia Yang, Xiang Yu,
- Abstract要約: Implicit Bayesian Markov Decision Process (IBMDP) はシミュレータフリー設定用に設計されたモデルベースのRLフレームワークである。
IBMDPは、望ましい結果とリソース効率とのバランスをとる安定したポリシーを生成する。
実世界の中枢神経系(CNS)の薬物発見タスクにおいて、IBMDPは確立されたものと比較して、リソース消費を最大92%削減した。
- 参考スコア(独自算出の注目度): 2.8529443025686487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimally sequencing experimental assays in drug discovery is a high-stakes planning problem under severe uncertainty and resource constraints. A primary obstacle for standard reinforcement learning (RL) is the absence of an explicit environment simulator or transition data $(s, a, s')$; planning must rely solely on a static database of historical outcomes. We introduce the Implicit Bayesian Markov Decision Process (IBMDP), a model-based RL framework designed for such simulator-free settings. IBMDP constructs a case-guided implicit model of transition dynamics by forming a nonparametric belief distribution using similar historical outcomes. This mechanism enables Bayesian belief updating as evidence accumulates and employs ensemble MCTS planning to generate stable policies that balance information gain toward desired outcomes with resource efficiency. We validate IBMDP through comprehensive experiments. On a real-world central nervous system (CNS) drug discovery task, IBMDP reduced resource consumption by up to 92\% compared to established heuristics while maintaining decision confidence. To rigorously assess decision quality, we also benchmarked IBMDP in a synthetic environment with a computable optimal policy. Our framework achieves significantly higher alignment with this optimal policy than a deterministic value iteration alternative that uses the same similarity-based model, demonstrating the superiority of our ensemble planner. IBMDP offers a practical solution for sequential experimental design in data-rich but simulator-poor domains.
- Abstract(参考訳): 薬物発見における最適シークエンシング実験法は、深刻な不確実性と資源制約の下での高い評価計画問題である。
標準強化学習(RL)の主な障害は、明示的な環境シミュレータや遷移データ$(s, a, s')$が存在しないことである。
本稿では,シミュレータフリー設定用に設計されたモデルベースRLフレームワークであるImplicit Bayesian Markov Decision Process (IBMDP)を紹介する。
IBMDPは、同様の歴史的結果を用いて非パラメトリックな信念分布を形成することによって、遷移力学のケースガイドによる暗黙モデルを構築する。
このメカニズムにより、証拠が蓄積され、MCTSが情報とリソース効率の両立を図り、希望する結果とのバランスをとるための安定したポリシーを生成するため、ベイズ的信念の更新が可能になる。
我々は総合的な実験を通じてIBMDPを検証する。
実世界の中枢神経系(CNS)の薬物発見タスクにおいて,IBMDPは決定信頼性を維持しつつ,確立したヒューリスティックスと比較して,資源消費を最大92%削減した。
また,決定の質を厳格に評価するために,計算可能な最適ポリシを備えた合成環境におけるIBMDPのベンチマークを行った。
我々のフレームワークは、同じ類似性に基づくモデルを用いた決定論的価値反復法よりも、この最適なポリシーとの整合性を著しく向上させ、我々のアンサンブルプランナーの優位性を実証する。
IBMDPはデータリッチだがシミュレーターの貧弱領域における逐次的な実験設計のための実用的なソリューションを提供する。
関連論文リスト
- Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Online Robust Planning under Model Uncertainty: A Sample-Based Approach [8.599681538174888]
本稿では,Markov Decision Processs (MDP) のためのオンライン計画アルゴリズムであるRobust Sparse Sampling (RSS)を紹介した。
RSSはサンプル平均近似(SAA)の効率性と理論的特性を活用することでロバストな値関数を計算する
RSSは無限の状態空間や連続状態空間に適用でき、そのサンプルと計算の複雑さは状態空間のサイズとは独立である。
論文 参考訳(メタデータ) (2025-09-12T11:41:23Z) - Distributionally Robust Optimization with Adversarial Data Contamination [49.89480853499918]
凸リプシッツ損失関数を持つ一般化線形モデルに対するワッサーシュタイン-1 DRO 目標の最適化に焦点をあてる。
私たちの主な貢献は、データ汚染のトレーニングに対するロバストネスと分散シフトに対するロバストネスを統合した、新しいモデリングフレームワークです。
この研究は、データ汚染と分散シフトという2つの課題の下で学習するために、効率的な計算によって支援される最初の厳密な保証を確立する。
論文 参考訳(メタデータ) (2025-07-14T18:34:10Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Bayesian Nonparametrics Meets Data-Driven Distributionally Robust Optimization [29.24821214671497]
機械学習と統計モデルのトレーニングは、しばしばデータ駆動型リスク基準の最適化を伴う。
ベイズ的非パラメトリック(ディリクレ過程)理論と、スムーズなあいまいさ-逆選好の最近の決定論的モデルを組み合わせた、新しいロバストな基準を提案する。
実用的な実装として、よく知られたディリクレプロセスの表現に基づいて、評価基準の抽出可能な近似を提案し、研究する。
論文 参考訳(メタデータ) (2024-01-28T21:19:15Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Distributionally Robust Model-Based Offline Reinforcement Learning with
Near-Optimal Sample Complexity [39.886149789339335]
オフライン強化学習は、積極的に探索することなく、履歴データから意思決定を行うことを学習することを目的としている。
環境の不確実性や変動性から,デプロイされた環境が,ヒストリデータセットの収集に使用される名目上のものから逸脱した場合でも,良好に機能するロバストなポリシーを学ぶことが重要である。
オフラインRLの分布的ロバストな定式化を考察し、有限水平および無限水平の両方でクルバック・リーブラー発散によって指定された不確実性セットを持つロバストマルコフ決定過程に着目する。
論文 参考訳(メタデータ) (2022-08-11T11:55:31Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。