論文の概要: Bayesian Sequential Optimal Experimental Design for Nonlinear Models
Using Policy Gradient Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2110.15335v1
- Date: Thu, 28 Oct 2021 17:47:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 14:45:12.289707
- Title: Bayesian Sequential Optimal Experimental Design for Nonlinear Models
Using Policy Gradient Reinforcement Learning
- Title(参考訳): ポリシー勾配強化学習を用いた非線形モデルのベイズ逐次最適実験設計
- Authors: Wanggang Shen, Xun Huan
- Abstract要約: この逐次最適設計(sOED)問題を有限水平部分観測可能なマルコフ決定過程(POMDP)として定式化する。
連続確率変数、一般のガウス的非ガウス的後部モデル、高価な非線形フォワードモデルに対応するために構築されている。
我々は、強化学習から政策勾配(PG)法を用いてsOEDポリシーを数値的に解き、sOEDのPG式を導出し、証明する。
PG-sOED法全体を線形ガウスベンチマークで検証し, 汚染源逆転問題により, バッチおよびグレディ設計よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a mathematical framework and computational methods to optimally
design a finite number of sequential experiments. We formulate this sequential
optimal experimental design (sOED) problem as a finite-horizon partially
observable Markov decision process (POMDP) in a Bayesian setting and with
information-theoretic utilities. It is built to accommodate continuous random
variables, general non-Gaussian posteriors, and expensive nonlinear forward
models. sOED then seeks an optimal design policy that incorporates elements of
both feedback and lookahead, generalizing the suboptimal batch and greedy
designs. We solve for the sOED policy numerically via policy gradient (PG)
methods from reinforcement learning, and derive and prove the PG expression for
sOED. Adopting an actor-critic approach, we parameterize the policy and value
functions using deep neural networks and improve them using gradient estimates
produced from simulated episodes of designs and observations. The overall
PG-sOED method is validated on a linear-Gaussian benchmark, and its advantages
over batch and greedy designs are demonstrated through a contaminant source
inversion problem in a convection-diffusion field.
- Abstract(参考訳): 有限個の連続実験を最適に設計するための数学的枠組みと計算手法を提案する。
この逐次最適実験設計(soed)問題をベイズ設定および情報理論ユーティリティを用いて有限ホリゾン部分可観測マルコフ決定過程(pomdp)として定式化する。
連続確率変数、一般の非ガウス後流、高価な非線形前方モデルに対応するために構築されている。
次に、sOEDはフィードバックとルックアヘッドの両方の要素を組み込んだ最適な設計方針を求め、最適以下のバッチと欲求設計を一般化する。
我々は、強化学習から政策勾配(PG)法を用いてsOEDポリシーを数値的に解き、sOEDのPG式を導出し、証明する。
アクター-批判的アプローチを採用することで,ディープニューラルネットワークを用いたポリシーと価値関数のパラメータ化と,設計や観察のシミュレーションから得られた勾配推定による改善を行う。
PG-sOED法全体を線形ガウスベンチマークで検証し, 対流拡散場における汚染源逆問題により, バッチおよびグレディ設計よりも優れていることを示す。
関連論文リスト
- A Simulation-Free Deep Learning Approach to Stochastic Optimal Control [12.699529713351287]
最適制御(SOC)における一般問題の解法のためのシミュレーションフリーアルゴリズムを提案する。
既存の手法とは異なり、我々の手法は随伴問題の解を必要としない。
論文 参考訳(メタデータ) (2024-10-07T16:16:53Z) - Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Variational Bayesian Optimal Experimental Design with Normalizing Flows [0.837622912636323]
変分OEDは、可能性評価なしでEIGの下位境界を推定する。
本稿では,vOEDにおける変分分布を表現するための正規化フローについて紹介する。
その結果,4〜5層の合成により,より低いEIG推定バイアスが得られることがわかった。
論文 参考訳(メタデータ) (2024-04-08T14:44:21Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - Variational Sequential Optimal Experimental Design using Reinforcement
Learning [0.0]
ベイジアン・フレームワークと情報ゲイン・ユーティリティを用いた有限列実験を最適に設計する新しい手法である変分逐次最適実験設計(vsOED)を導入する。
以上の結果から,従来の逐次設計アルゴリズムと比較して,サンプル効率が大幅に向上し,前方モデルシミュレーションの数が減少したことが示唆された。
論文 参考訳(メタデータ) (2023-06-17T21:47:19Z) - Variational Linearized Laplace Approximation for Bayesian Deep Learning [11.22428369342346]
変分スパースガウス過程(GP)を用いた線形ラプラス近似(LLA)の近似法を提案する。
本手法はGPの2つのRKHSの定式化に基づいており、予測平均として元のDNNの出力を保持する。
効率のよい最適化が可能で、結果としてトレーニングデータセットのサイズのサブ線形トレーニング時間が短縮される。
論文 参考訳(メタデータ) (2023-02-24T10:32:30Z) - Stochastic Learning Approach to Binary Optimization for Optimal Design
of Experiments [0.0]
本稿では,偏微分方程式などの数学モデルによるベイズ逆問題に対する最適実験設計 (OED) のための二項最適化への新しいアプローチを提案する。
OEDユーティリティ関数、すなわち正規化された最適性勾配はベルヌーイ分布に対する期待の形で目的関数にキャストされる。
この目的を確率的最適化ルーチンを用いて最適な観測方針を求めることで解決する。
論文 参考訳(メタデータ) (2021-01-15T03:54:12Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - An AI-Assisted Design Method for Topology Optimization Without
Pre-Optimized Training Data [68.8204255655161]
トポロジ最適化に基づくAI支援設計手法を提示し、最適化された設計を直接的に得ることができる。
設計は、境界条件と入力データとしての充填度に基づいて、人工ニューラルネットワーク、予測器によって提供される。
論文 参考訳(メタデータ) (2020-12-11T14:33:27Z) - Optimal Bayesian experimental design for subsurface flow problems [77.34726150561087]
本稿では,設計ユーティリティ機能のためのカオス拡張サロゲートモデル(PCE)の開発のための新しいアプローチを提案する。
この手法により,対象関数に対する適切な品質応答面の導出が可能となり,計算予算は複数の単点評価に匹敵する。
論文 参考訳(メタデータ) (2020-08-10T09:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。