論文の概要: Nesting Particle Filters for Experimental Design in Dynamical Systems
- arxiv url: http://arxiv.org/abs/2402.07868v1
- Date: Mon, 12 Feb 2024 18:29:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 13:08:19.304846
- Title: Nesting Particle Filters for Experimental Design in Dynamical Systems
- Title(参考訳): 力学系における実験設計のためのネスティング粒子フィルタ
- Authors: Sahel Iqbal, Adrien Corenflos, Simo S\"arkk\"a, Hany Abdulsamad
- Abstract要約: Inside-Out SMC2アルゴリズムを開発した。
これは、実験のコストを償却するために期待される情報のバイアス付き推定器に依存する最近のアプローチとは対照的である。
- 参考スコア(独自算出の注目度): 3.9410617513331863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a novel approach to Bayesian Experimental Design
(BED) for non-exchangeable data that formulates it as risk-sensitive policy
optimization. We develop the Inside-Out SMC^2 algorithm that uses a nested
sequential Monte Carlo (SMC) estimator of the expected information gain and
embeds it into a particle Markov chain Monte Carlo (pMCMC) framework to perform
gradient-based policy optimization. This is in contrast to recent approaches
that rely on biased estimators of the expected information gain (EIG) to
amortize the cost of experiments by learning a design policy in advance.
Numerical validation on a set of dynamical systems showcases the efficacy of
our method in comparison to other state-of-the-art strategies.
- Abstract(参考訳): 本稿では,非交換可能データに対するベイズ実験設計(bed)を,リスクに敏感な政策最適化として定式化する新しい手法を提案する。
Inside-Out SMC^2アルゴリズムは,予測情報ゲインのネストされた連続モンテカルロ(SMC)推定器を使用し,それを粒子マルコフ連鎖モンテカルロ(pMCMC)フレームワークに埋め込んで勾配に基づく政策最適化を行う。
これは、先進的な設計方針を学習することで実験のコストを減らし、期待情報ゲイン(EIG)のバイアス推定に頼っている最近のアプローチとは対照的である。
一連の力学系の数値検証は,他の最先端戦略と比較して,本手法の有効性を示す。
関連論文リスト
- PASOA- PArticle baSed Bayesian Optimal Adaptive design [2.423735225769665]
本稿では,パラメータ推定のための後続分布の正確な推定を同時に提供することによって,逐次設計最適化を行う新しい手法を提案する。
予測情報ゲイン(EIG)を最大化するために、SMC(Sequential Monte Carlo)サンプリングと最適化を用いて、コントラスト推定原理を用いてシーケンシャル設計を行う。
提案手法は, 高い情報ゲインと正確なSMCサンプリングの両方を同時に行うことが提案され, 性能に欠かせないことを示す。
論文 参考訳(メタデータ) (2024-02-11T11:11:39Z) - Online Variational Sequential Monte Carlo [56.16884466478886]
我々は,計算効率が高く正確なモデルパラメータ推定とベイジアン潜在状態推定を提供する変分連続モンテカルロ法(VSMC)を構築した。
オンラインVSMCは、パラメータ推定と粒子提案適応の両方を効率よく、完全にオンザフライで実行することができる。
論文 参考訳(メタデータ) (2023-12-19T21:45:38Z) - Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - Bayesian Sequential Optimal Experimental Design for Nonlinear Models
Using Policy Gradient Reinforcement Learning [0.0]
この逐次最適設計(sOED)問題を有限水平部分観測可能なマルコフ決定過程(POMDP)として定式化する。
連続確率変数、一般のガウス的非ガウス的後部モデル、高価な非線形フォワードモデルに対応するために構築されている。
我々は、強化学習から政策勾配(PG)法を用いてsOEDポリシーを数値的に解き、sOEDのPG式を導出し、証明する。
PG-sOED法全体を線形ガウスベンチマークで検証し, 汚染源逆転問題により, バッチおよびグレディ設計よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-10-28T17:47:31Z) - Model-Based Policy Search Using Monte Carlo Gradient Estimation with
Real Systems Application [12.854118767247453]
EmphMonte Carlo Probabilistic Inference for Learning Control (MC-PILCO) というモデルベース強化学習(MBRL)アルゴリズムを提案する。
このアルゴリズムは、システム力学をモデル化するガウス過程(GP)と、政策勾配を推定するモンテカルロのアプローチに依存している。
シミュレーションされたカートポール環境における数値的な比較により、MC-PILCOはより優れたデータ効率と制御性能を示すことが示された。
論文 参考訳(メタデータ) (2021-01-28T17:01:15Z) - Model-based Policy Search for Partially Measurable Systems [9.335154302282751]
部分計測可能システム(PMS)のためのモデルベース強化学習(MBRL)アルゴリズムを提案する。
Monte Carlo Probabilistic Inference for Learning COntrol for Partially Measurable Systems (MC-PILCO4PMS) と呼ばれる提案アルゴリズムは、システムダイナミクスをモデル化するためにガウスプロセス(GP)に依存している。
提案アルゴリズムの有効性はシミュレーションと2つの実システムの両方で検証されている。
論文 参考訳(メタデータ) (2021-01-21T17:39:22Z) - Optimal Bayesian experimental design for subsurface flow problems [77.34726150561087]
本稿では,設計ユーティリティ機能のためのカオス拡張サロゲートモデル(PCE)の開発のための新しいアプローチを提案する。
この手法により,対象関数に対する適切な品質応答面の導出が可能となり,計算予算は複数の単点評価に匹敵する。
論文 参考訳(メタデータ) (2020-08-10T09:42:59Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - A Dynamical Systems Approach for Convergence of the Bayesian EM
Algorithm [59.99439951055238]
我々は、(離散時間)リアプノフ安定性理論が、必ずしも勾配ベースではない最適化アルゴリズムの分析(および潜在的な設計)において、いかに強力なツールとして役立つかを示す。
本稿では,不完全データベイズフレームワークにおけるパラメータ推定を,MAP-EM (maximum a reari expectation-maximization) と呼ばれる一般的な最適化アルゴリズムを用いて行うことに着目したML問題について述べる。
高速収束(線形あるいは二次的)が達成され,S&Cアプローチを使わずに発表することが困難であった可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-23T01:34:18Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z) - Unbiased MLMC stochastic gradient-based optimization of Bayesian
experimental designs [4.112293524466434]
実験的な設計パラメータに対する期待情報ゲインの勾配は、ネスト予測によって与えられる。
我々は,期待される情報ゲインの勾配を,期待される$ell$-norm,期待されるサンプル当たりの計算コストで推定するモンテカルロ推定器を導入する。
論文 参考訳(メタデータ) (2020-05-18T01:02:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。