論文の概要: Optimizing Sequential Experimental Design with Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2202.00821v1
- Date: Wed, 2 Feb 2022 00:23:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-03 13:47:59.268456
- Title: Optimizing Sequential Experimental Design with Deep Reinforcement
Learning
- Title(参考訳): 深層強化学習による逐次実験設計の最適化
- Authors: Tom Blau, Edwin Bonilla, Amir Dezfouli, Iadine Chades
- Abstract要約: 我々は、ポリシーを最適化する問題は、マルコフ決定プロセス(MDP)の解決に還元できることを示した。
また,本手法はデプロイ時に計算効率が高く,連続的かつ離散的な設計空間上での最先端性能を示す。
- 参考スコア(独自算出の注目度): 7.589363597086081
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Bayesian approaches developed to solve the optimal design of sequential
experiments are mathematically elegant but computationally challenging.
Recently, techniques using amortization have been proposed to make these
Bayesian approaches practical, by training a parameterized policy that proposes
designs efficiently at deployment time. However, these methods may not
sufficiently explore the design space, require access to a differentiable
probabilistic model and can only optimize over continuous design spaces. Here,
we address these limitations by showing that the problem of optimizing policies
can be reduced to solving a Markov decision process (MDP). We solve the
equivalent MDP with modern deep reinforcement learning techniques. Our
experiments show that our approach is also computationally efficient at
deployment time and exhibits state-of-the-art performance on both continuous
and discrete design spaces, even when the probabilistic model is a black box.
- Abstract(参考訳): シーケンシャルな実験の最適設計を解くために開発されたベイズ的アプローチは数学的にエレガントだが計算的に難しい。
近年,これらのベイズ的アプローチを実践するために,効率的に設計を提案できるパラメータ化ポリシをトレーニングする手法が提案されている。
しかし、これらの手法は設計空間を十分に探索することができず、微分可能確率モデルへのアクセスを必要とし、連続的な設計空間よりも最適化できる。
ここでは,政策最適化の問題をマルコフ決定過程(MDP)の解決に還元できることを示し,これらの制約に対処する。
我々は、現代の深層強化学習技術を用いて、同等のMDPを解く。
実験により,本手法はデプロイ時に計算効率が高く,確率モデルがブラックボックスであっても,連続的および離散的設計空間において最先端の性能を示すことが示された。
関連論文リスト
- Learning Joint Models of Prediction and Optimization [56.04498536842065]
Predict-Then-Thenフレームワークは、機械学習モデルを使用して、最適化問題の未知のパラメータを、解決前の機能から予測する。
本稿では,共同予測モデルを用いて観測可能特徴から最適解を直接学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-07T19:52:14Z) - Diffusion Model for Data-Driven Black-Box Optimization [54.25693582870226]
我々は、強力な生成AI技術である拡散モデルに注目し、ブラックボックス最適化の可能性について検討する。
本研究では,1)実数値報酬関数のノイズ測定と,2)対比較に基づく人間の嗜好の2種類のラベルについて検討する。
提案手法は,設計最適化問題を条件付きサンプリング問題に再構成し,拡散モデルのパワーを有効活用する。
論文 参考訳(メタデータ) (2024-03-20T00:41:12Z) - An Adaptive Dimension Reduction Estimation Method for High-dimensional
Bayesian Optimization [6.79843988450982]
BOを高次元設定に拡張するための2段階最適化フレームワークを提案する。
私たちのアルゴリズムは、これらのステップを並列またはシーケンスで操作する柔軟性を提供します。
数値実験により,困難シナリオにおける本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-03-08T16:21:08Z) - End-to-End Learning for Fair Multiobjective Optimization Under
Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。
本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。
この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:33:35Z) - Differentiable Multi-Target Causal Bayesian Experimental Design [43.76697029708785]
本稿では,ベイズ最適設計問題に対する勾配に基づくアプローチを導入し,バッチ環境で因果モデルを学習する。
既存の手法は、一連の実験を構築するためにグリーディ近似に依存している。
そこで本稿では,最適介入対象ペアの集合を取得するための,概念的にシンプルな勾配に基づく最適化手法を提案する。
論文 参考訳(メタデータ) (2023-02-21T11:32:59Z) - New Paradigms for Exploiting Parallel Experiments in Bayesian
Optimization [0.0]
本稿では,システムの構造を利用して設計空間を分割する並列BOパラダイムを提案する。
具体的には,性能関数のレベルセットに従って設計空間を分割する手法を提案する。
以上の結果から,本手法は検索時間を大幅に削減し,グローバルな(ローカルではなく)ソリューションを見つける可能性を高めることが示唆された。
論文 参考訳(メタデータ) (2022-10-03T16:45:23Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - An Actor-Critic Method for Simulation-Based Optimization [6.261751912603047]
実現可能な空間から最適な設計を選択するためのシミュレーションに基づく最適化問題に焦点をあてる。
政策探索問題としてサンプリングプロセスを定式化し、強化学習(RL)の観点から解を求める。
いくつかの実験は提案アルゴリズムの有効性を検証するために設計されている。
論文 参考訳(メタデータ) (2021-10-31T09:04:23Z) - An AI-Assisted Design Method for Topology Optimization Without
Pre-Optimized Training Data [68.8204255655161]
トポロジ最適化に基づくAI支援設計手法を提示し、最適化された設計を直接的に得ることができる。
設計は、境界条件と入力データとしての充填度に基づいて、人工ニューラルネットワーク、予測器によって提供される。
論文 参考訳(メタデータ) (2020-12-11T14:33:27Z) - Optimal Bayesian experimental design for subsurface flow problems [77.34726150561087]
本稿では,設計ユーティリティ機能のためのカオス拡張サロゲートモデル(PCE)の開発のための新しいアプローチを提案する。
この手法により,対象関数に対する適切な品質応答面の導出が可能となり,計算予算は複数の単点評価に匹敵する。
論文 参考訳(メタデータ) (2020-08-10T09:42:59Z) - Adaptive Discretization for Model-Based Reinforcement Learning [10.21634042036049]
本稿では,適応離散化手法を導入し,効率的なモデルに基づくエピソード強化学習アルゴリズムを設計する。
我々のアルゴリズムは、空間の適応的な離散化を維持するために拡張された楽観的なワンステップ値反復に基づいている。
論文 参考訳(メタデータ) (2020-07-01T19:36:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。