論文の概要: Reinforcement Learning based Sequential Batch-sampling for Bayesian
Optimal Experimental Design
- arxiv url: http://arxiv.org/abs/2112.10944v2
- Date: Thu, 23 Dec 2021 07:15:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-24 12:28:01.642541
- Title: Reinforcement Learning based Sequential Batch-sampling for Bayesian
Optimal Experimental Design
- Title(参考訳): 強化学習に基づくベイズ最適実験設計のための逐次バッチサンプリング
- Authors: Yonatan Ashenafi, Piyush Pandita, Sayan Ghosh
- Abstract要約: 実験の逐次設計(SDOE)は,近年,有望な結果をもたらす手法として人気がある。
本研究では、SDOE戦略を拡張し、実験やコンピュータコードに一連の入力で問い合わせる。
提案手法のユニークな機能は、複数のタスクに適用できる能力である。
- 参考スコア(独自算出の注目度): 1.6249267147413522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Engineering problems that are modeled using sophisticated mathematical
methods or are characterized by expensive-to-conduct tests or experiments, are
encumbered with limited budget or finite computational resources. Moreover,
practical scenarios in the industry, impose restrictions, based on logistics
and preference, on the manner in which the experiments can be conducted. For
example, material supply may enable only a handful of experiments in a
single-shot or in the case of computational models one may face significant
wait-time based on shared computational resources. In such scenarios, one
usually resorts to performing experiments in a manner that allows for
maximizing one's state-of-knowledge while satisfying the above mentioned
practical constraints. Sequential design of experiments (SDOE) is a popular
suite of methods, that has yielded promising results in recent years across
different engineering and practical problems. A common strategy, that leverages
Bayesian formalism is the Bayesian SDOE, which usually works best in the
one-step-ahead or myopic scenario of selecting a single experiment at each step
of a sequence of experiments. In this work, we aim to extend the SDOE strategy,
to query the experiment or computer code at a batch of inputs. To this end, we
leverage deep reinforcement learning (RL) based policy gradient methods, to
propose batches of queries that are selected taking into account entire budget
in hand. The algorithm retains the sequential nature, inherent in the SDOE,
while incorporating elements of reward based on task from the domain of deep
RL. A unique capability of the proposed methodology is its ability to be
applied to multiple tasks, for example optimization of a function, once its
trained. We demonstrate the performance of the proposed algorithm on a
synthetic problem, and a challenging high-dimensional engineering problem.
- Abstract(参考訳): 高度な数学的手法を用いてモデル化される工学的な問題や、高価な導電性試験や実験によって特徴づけられるものは、限られた予算や有限の計算資源で満たされる。
さらに,産業における実践シナリオでは,実験の実施方法に基いて,物流や選好に基づく制約を課している。
例えば、材料供給は、単発または計算モデルの場合、共有された計算資源に基づいて重要な待ち時間に直面した少数の実験のみを可能にする。
このようなシナリオでは、通常、上記の実践的制約を満たしながら、自身の知識の状態の最大化を可能にする方法で実験を行う。
実験の逐次設計(SDOE)は一般的な手法であり、近年、様々な工学的、実践的な問題において有望な結果をもたらしている。
ベイズ形式主義を利用する一般的な戦略は、ベイズ SDOE であり、通常、一連の実験の各ステップにおいて単一の実験を選択する一段階またはミオピックのシナリオにおいて最もうまく機能する。
本研究の目的は,sdoe戦略を拡張し,実験やコンピュータコードを入力のバッチで問い合わせることである。
この目的のために,我々は,予算全体を考慮して選択されたクエリのバッチを提案するために,深層強化学習(rl)に基づくポリシー勾配手法を利用する。
このアルゴリズムは、SDOEに固有のシーケンシャルな性質を保ちながら、深いRLの領域からのタスクに基づく報酬の要素を取り入れている。
提案手法のユニークな機能は、訓練された関数の最適化など、複数のタスクに適用される能力である。
本稿では,合成問題における提案アルゴリズムの性能と高次元工学的課題について述べる。
関連論文リスト
- CoPS: Empowering LLM Agents with Provable Cross-Task Experience Sharing [70.25689961697523]
クロスタスク体験の共有と選択によるシーケンシャル推論を強化する一般化可能なアルゴリズムを提案する。
我々の研究は、既存のシーケンシャルな推論パラダイムのギャップを埋め、タスク間体験の活用の有効性を検証する。
論文 参考訳(メタデータ) (2024-10-22T03:59:53Z) - Globally-Optimal Greedy Experiment Selection for Active Sequential
Estimation [1.1530723302736279]
逐次的に収集したデータの実験を適応的に選択するアクティブシーケンシャル推定の問題について検討する。
目標は、より正確なモデル推定のための実験選択ルールを設計することである。
そこで本稿では,グリーディ実験の選択手法のクラスを提案し,最大可能性の統計的解析を行う。
論文 参考訳(メタデータ) (2024-02-13T17:09:29Z) - An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models [55.01592097059969]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。
アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。
本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:56:54Z) - Task-specific experimental design for treatment effect estimation [59.879567967089145]
因果推論の標準は大規模ランダム化試験(RCT)である。
近年の研究では、RCTのよりサンプル効率の良い代替案が提案されているが、これらは因果効果を求める下流の応用には適用できない。
実験的な設計のためのタスク固有のアプローチを開発し、特定の下流アプリケーションにカスタマイズされたサンプリング戦略を導出する。
論文 参考訳(メタデータ) (2023-06-08T18:10:37Z) - Active Exploration via Experiment Design in Markov Chains [86.41407938210193]
科学と工学における重要な課題は、未知の量の興味について学ぶために実験を設計することである。
本稿では,最適値に収束したポリシを効率的に選択するアルゴリズムを提案する。
理論分析に加えて,生態モニタリングと薬理学の応用に関する枠組みを概説する。
論文 参考訳(メタデータ) (2022-06-29T00:04:40Z) - Exploring Viable Algorithmic Options for Learning from Demonstration
(LfD): A Parameterized Complexity Approach [0.0]
本稿では,パラメータ化複雑性解析を用いて,アルゴリズムの選択肢を体系的に探索する方法を示す。
環境、実演、ポリシーに対する多くの(しばしば同時に)制限に対して、我々の問題は、一般的にも、あるいは相対的に、効率的に解決できないことを示す。
論文 参考訳(メタデータ) (2022-05-10T15:54:06Z) - Policy-Based Bayesian Experimental Design for Non-Differentiable
Implicit Models [25.00242490764664]
深層適応設計のための強化学習(Reinforcement Learning for Deep Adaptive Design, RL-DAD)は、非微分不可能な暗黙モデルに対するシミュレーションに基づく最適実験設計手法である。
RL-DADは、事前履歴をオフラインで実験するためにマッピングし、オンライン実行中に素早くデプロイできる。
論文 参考訳(メタデータ) (2022-03-08T18:47:01Z) - An Actor-Critic Method for Simulation-Based Optimization [6.261751912603047]
実現可能な空間から最適な設計を選択するためのシミュレーションに基づく最適化問題に焦点をあてる。
政策探索問題としてサンプリングプロセスを定式化し、強化学習(RL)の観点から解を求める。
いくつかの実験は提案アルゴリズムの有効性を検証するために設計されている。
論文 参考訳(メタデータ) (2021-10-31T09:04:23Z) - Output Space Entropy Search Framework for Multi-Objective Bayesian
Optimization [32.856318660282255]
高価な関数評価(実験とも呼ばれる)を用いたブラックボックス多目的最適化(MOO)
出力空間エントロピー(OSE)探索の原理に基づいてMOO問題を解決するための一般的なフレームワークを提案する。
我々のOSE検索に基づくアルゴリズムは、MOOソリューションの計算効率と精度の両方の観点から最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2021-10-13T18:43:39Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Optimal Bayesian experimental design for subsurface flow problems [77.34726150561087]
本稿では,設計ユーティリティ機能のためのカオス拡張サロゲートモデル(PCE)の開発のための新しいアプローチを提案する。
この手法により,対象関数に対する適切な品質応答面の導出が可能となり,計算予算は複数の単点評価に匹敵する。
論文 参考訳(メタデータ) (2020-08-10T09:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。