論文の概要: Sequential Bayesian Optimal Experimental Design in Infinite Dimensions via Policy Gradient Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.05868v1
- Date: Fri, 09 Jan 2026 15:44:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:50.014694
- Title: Sequential Bayesian Optimal Experimental Design in Infinite Dimensions via Policy Gradient Reinforcement Learning
- Title(参考訳): ポリシー勾配強化学習による無限次元の逐次ベイズ最適実験設計
- Authors: Kaichen Shen, Peng Chen,
- Abstract要約: 高忠実性アプローチでは、ネストしたベイズ反転と設計ループの中で、繰り返し前方および随伴したPDEが解かれる。
我々は、SBOEDを有限水平マルコフ決定プロセスとして定式化し、ポリシー段階の強化学習を通じて、償却設計ポリシーを学習する。
汚染源追跡のための逐次マルチセンサ配置に関する数値実験は、高忠実度有限要素法よりも約100倍のスピードアップを示す。
- 参考スコア(独自算出の注目度): 3.2580743227673694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequential Bayesian optimal experimental design (SBOED) for PDE-governed inverse problems is computationally challenging, especially for infinite-dimensional random field parameters. High-fidelity approaches require repeated forward and adjoint PDE solves inside nested Bayesian inversion and design loops. We formulate SBOED as a finite-horizon Markov decision process and learn an amortized design policy via policy-gradient reinforcement learning (PGRL), enabling online design selection from the experiment history without repeatedly solving an SBOED optimization problem. To make policy training and reward evaluation scalable, we combine dual dimension reduction -- active subspace projection for the parameter and principal component analysis for the state -- with an adjusted derivative-informed latent attention neural operator (LANO) surrogate that predicts both the parameter-to-solution map and its Jacobian. We use a Laplace-based D-optimality reward while noting that, in general, other expected-information-gain utilities such as KL divergence can also be used within the same framework. We further introduce an eigenvalue-based evaluation strategy that uses prior samples as proxies for maximum a posteriori (MAP) points, avoiding repeated MAP solves while retaining accurate information-gain estimates. Numerical experiments on sequential multi-sensor placement for contaminant source tracking demonstrate approximately $100\times$ speedup over high-fidelity finite element methods, improved performance over random sensor placements, and physically interpretable policies that discover an ``upstream'' tracking strategy.
- Abstract(参考訳): PDE-governed inverse問題に対する逐次ベイズ最適実験設計(SBOED)は、特に無限次元のランダム場パラメータにおいて計算的に困難である。
高忠実性アプローチでは、ネストしたベイズ反転と設計ループの中で、繰り返し前方および随伴したPDEが解かれる。
我々は、SBOEDを有限水平マルコフ決定プロセスとして定式化し、ポリシー勾配強化学習(PGRL)を通して、償却設計ポリシーを学習し、SBOED最適化問題を繰り返し解決することなく、実験履歴からオンライン設計選択を可能にする。
政策トレーニングと報奨評価をスケーラブルにするために、パラメータのアクティブ部分空間プロジェクションと状態の主成分分析の2次元化と、パラメータ・ツー・ソリューション・マップとヤコビアンの両方を予測する調整された微分インフォーム付き潜在注意ニューラルネットワーク(LANO)サロゲートを組み合わせる。
我々は、一般に、KLの発散のような他の期待情報ゲインユーティリティが、同じフレームワーク内でも使用できることに注意しながら、LaplaceベースのD-Optimality rewardを使用します。
さらに,先行サンプルを最大後点 (MAP) のプロキシとして用いる固有値に基づく評価戦略を導入し,精度の高い情報ゲイン推定を維持しながらMAPの繰り返し解を回避した。
汚染源追跡のための逐次マルチセンサ配置に関する数値実験は、高忠実度有限要素法よりも100ドル=スピードアップし、ランダムなセンサ配置よりも性能を向上し、"アップストリーム"追跡戦略を発見する物理的に解釈可能なポリシーを実証している。
関連論文リスト
- Gradient-Free Sequential Bayesian Experimental Design via Interacting Particle Systems [1.1549572298362782]
ベイズ最適実験設計(BOED)のための勾配のないフレームワークを逐次設定で導入する。
提案手法は,設計最適化のためのEnsemble Kalman Inversion (EKI) と,効率的な後方サンプリングのためのAffine-Invariant Langevin Dynamics (ALDI) サンプリング器を組み合わせたものである。
変分ガウスおよびパラメタライズされたラプラス近似は、期待される情報ゲインの上と下の境界を抽出できる。
論文 参考訳(メタデータ) (2025-04-17T20:16:15Z) - Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - An Adaptive Dimension Reduction Estimation Method for High-dimensional
Bayesian Optimization [6.79843988450982]
BOを高次元設定に拡張するための2段階最適化フレームワークを提案する。
私たちのアルゴリズムは、これらのステップを並列またはシーケンスで操作する柔軟性を提供します。
数値実験により,困難シナリオにおける本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-03-08T16:21:08Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Bayesian Sequential Optimal Experimental Design for Nonlinear Models
Using Policy Gradient Reinforcement Learning [0.0]
この逐次最適設計(sOED)問題を有限水平部分観測可能なマルコフ決定過程(POMDP)として定式化する。
連続確率変数、一般のガウス的非ガウス的後部モデル、高価な非線形フォワードモデルに対応するために構築されている。
我々は、強化学習から政策勾配(PG)法を用いてsOEDポリシーを数値的に解き、sOEDのPG式を導出し、証明する。
PG-sOED法全体を線形ガウスベンチマークで検証し, 汚染源逆転問題により, バッチおよびグレディ設計よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-10-28T17:47:31Z) - Optimal Bayesian experimental design for subsurface flow problems [77.34726150561087]
本稿では,設計ユーティリティ機能のためのカオス拡張サロゲートモデル(PCE)の開発のための新しいアプローチを提案する。
この手法により,対象関数に対する適切な品質応答面の導出が可能となり,計算予算は複数の単点評価に匹敵する。
論文 参考訳(メタデータ) (2020-08-10T09:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。