論文の概要: Policy-Based Bayesian Experimental Design for Non-Differentiable
Implicit Models
- arxiv url: http://arxiv.org/abs/2203.04272v1
- Date: Tue, 8 Mar 2022 18:47:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 14:20:49.831212
- Title: Policy-Based Bayesian Experimental Design for Non-Differentiable
Implicit Models
- Title(参考訳): 非微分可能暗黙モデルに対するポリシーベースベイズ実験設計
- Authors: Vincent Lim, Ellen Novoseller, Jeffrey Ichnowski, Huang Huang, Ken
Goldberg
- Abstract要約: 深層適応設計のための強化学習(Reinforcement Learning for Deep Adaptive Design, RL-DAD)は、非微分不可能な暗黙モデルに対するシミュレーションに基づく最適実験設計手法である。
RL-DADは、事前履歴をオフラインで実験するためにマッピングし、オンライン実行中に素早くデプロイできる。
- 参考スコア(独自算出の注目度): 25.00242490764664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For applications in healthcare, physics, energy, robotics, and many other
fields, designing maximally informative experiments is valuable, particularly
when experiments are expensive, time-consuming, or pose safety hazards. While
existing approaches can sequentially design experiments based on prior
observation history, many of these methods do not extend to implicit models,
where simulation is possible but computing the likelihood is intractable.
Furthermore, they often require either significant online computation during
deployment or a differentiable simulation system. We introduce Reinforcement
Learning for Deep Adaptive Design (RL-DAD), a method for simulation-based
optimal experimental design for non-differentiable implicit models. RL-DAD
extends prior work in policy-based Bayesian Optimal Experimental Design (BOED)
by reformulating it as a Markov Decision Process with a reward function based
on likelihood-free information lower bounds, which is used to learn a policy
via deep reinforcement learning. The learned design policy maps prior histories
to experiment designs offline and can be quickly deployed during online
execution. We evaluate RL-DAD and find that it performs competitively with
baselines on three benchmarks.
- Abstract(参考訳): 医療、物理学、エネルギー、ロボティクス、その他多くの分野の応用において、特に実験が高価、時間がかかり、安全上の危険にさらされる場合、最大限に有益な実験を設計することは重要である。
既存のアプローチは事前の観測履歴に基づいて実験を逐次設計することができるが、これらの手法の多くは暗黙のモデルに拡張されない。
さらに、デプロイ時に重要なオンライン計算や、差別化可能なシミュレーションシステムを必要とすることが多い。
本稿では,非微分型暗黙モデルに対するシミュレーションに基づく最適実験設計手法であるReinforcement Learning for Deep Adaptive Design (RL-DAD)を紹介する。
RL-DADは、政策に基づくベイズ最適実験設計(BOED)における先行研究を拡張し、それを、確率自由情報下限に基づく報酬関数付きマルコフ決定プロセスとして再構成し、深い強化学習を通じてポリシーを学ぶために用いられる。
学習したデザインポリシーは、過去の履歴をオフラインで実験するためにマップし、オンライン実行中に素早くデプロイできる。
我々はRL-DADを評価し、3つのベンチマークでベースラインと競合する性能を示した。
関連論文リスト
- Prompt Tuning with Diffusion for Few-Shot Pre-trained Policy Generalization [55.14484317645865]
我々は,オフライン強化学習タスクにおいて,例外的な品質向上を促す条件拡散モデルを構築した。
本稿では,Promptディフューザがプロンプトチューニングプロセスの堅牢かつ効果的なツールであることを示し,メタRLタスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2024-11-02T07:38:02Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Online simulator-based experimental design for cognitive model selection [74.76661199843284]
本稿では,抽出可能な確率を伴わない計算モデルを選択する実験設計手法BOSMOSを提案する。
シミュレーション実験では,提案手法により,既存のLFI手法に比べて最大2桁の精度でモデルを選択することができることを示した。
論文 参考訳(メタデータ) (2023-03-03T21:41:01Z) - Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z) - Towards Data-Driven Offline Simulations for Online Reinforcement
Learning [30.654163861164864]
強化学習のためのオフライン学習者シミュレーション(OLS)を形式化する。
シミュレーションの忠実度と効率を両立させる新しい評価プロトコルを提案する。
論文 参考訳(メタデータ) (2022-11-14T18:36:13Z) - Optimizing Sequential Experimental Design with Deep Reinforcement
Learning [7.589363597086081]
我々は、ポリシーを最適化する問題は、マルコフ決定プロセス(MDP)の解決に還元できることを示した。
また,本手法はデプロイ時に計算効率が高く,連続的かつ離散的な設計空間上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-02-02T00:23:05Z) - Reinforcement Learning based Sequential Batch-sampling for Bayesian
Optimal Experimental Design [1.6249267147413522]
実験の逐次設計(SDOE)は,近年,有望な結果をもたらす手法として人気がある。
本研究では、SDOE戦略を拡張し、実験やコンピュータコードに一連の入力で問い合わせる。
提案手法のユニークな機能は、複数のタスクに適用できる能力である。
論文 参考訳(メタデータ) (2021-12-21T02:25:23Z) - Implicit Deep Adaptive Design: Policy-Based Experimental Design without
Likelihoods [24.50829695870901]
暗黙のDeep Adaptive Design (iDAD) は暗黙のモデルでリアルタイムで適応実験を行う新しい手法である。
iDADは、設計ポリシーネットワークを事前学習することで、ベイズ最適設計(BOED)のコストを償却する。
論文 参考訳(メタデータ) (2021-11-03T16:24:05Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。