論文の概要: Bayesian Residual Policy Optimization: Scalable Bayesian Reinforcement
Learning with Clairvoyant Experts
- arxiv url: http://arxiv.org/abs/2002.03042v1
- Date: Fri, 7 Feb 2020 23:10:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 05:12:03.265065
- Title: Bayesian Residual Policy Optimization: Scalable Bayesian Reinforcement
Learning with Clairvoyant Experts
- Title(参考訳): ベイズ残留政策最適化:透視的専門家によるスケーラブルベイズ強化学習
- Authors: Gilwoo Lee, Brian Hou, Sanjiban Choudhury, Siddhartha S. Srinivasa
- Abstract要約: 我々はこれを潜在マルコフ決定過程(MDP)上のベイズ強化学習として定式化する。
我々はまず,各潜伏したMDPに対して専門家のアンサンブルを取得し,基本方針を計算するためのアドバイスを融合させる。
次に、アンサンブルの勧告を改善するためにベイズ残留政策を訓練し、不確実性を減らすことを学ぶ。
BRPOは専門家のアンサンブルを著しく改善し、既存の適応RL法を大幅に上回っている。
- 参考スコア(独自算出の注目度): 22.87432549580184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Informed and robust decision making in the face of uncertainty is critical
for robots that perform physical tasks alongside people. We formulate this as
Bayesian Reinforcement Learning over latent Markov Decision Processes (MDPs).
While Bayes-optimality is theoretically the gold standard, existing algorithms
do not scale well to continuous state and action spaces. Our proposal builds on
the following insight: in the absence of uncertainty, each latent MDP is easier
to solve. We first obtain an ensemble of experts, one for each latent MDP, and
fuse their advice to compute a baseline policy. Next, we train a Bayesian
residual policy to improve upon the ensemble's recommendation and learn to
reduce uncertainty. Our algorithm, Bayesian Residual Policy Optimization
(BRPO), imports the scalability of policy gradient methods and task-specific
expert skills. BRPO significantly improves the ensemble of experts and
drastically outperforms existing adaptive RL methods.
- Abstract(参考訳): 不確実性に直面したインフォームで堅牢な意思決定は、人と一緒に物理的タスクを行うロボットにとって極めて重要である。
我々はこれを潜在マルコフ決定過程(mdps)上のベイズ強化学習として定式化する。
ベイズ最適性は理論的には金の標準であるが、既存のアルゴリズムは連続状態や作用空間にうまくスケールしない。
提案は,不確実性がない場合,各潜伏型MDPの解決が容易である。
我々はまず,各潜伏したMDPに対して専門家のアンサンブルを取得し,基本方針を計算するためのアドバイスを融合させる。
次に,アンサンブルのレコメンデーションを改善するためにベイズ残留政策を訓練し,不確実性を減らすことを学ぶ。
我々のアルゴリズムであるbayesian residual policy optimization(brpo)は、ポリシー勾配法とタスク固有のエキスパートスキルのスケーラビリティをインポートする。
BRPOは専門家のアンサンブルを著しく改善し、既存の適応RL法を大幅に上回っている。
関連論文リスト
- Burning RED: Unlocking Subtask-Driven Reinforcement Learning and Risk-Awareness in Average-Reward Markov Decision Processes [7.028778922533688]
平均回帰マルコフ決定プロセス(MDPs)は、不確実性の下でのシーケンシャルな意思決定の基盤となる枠組みを提供する。
平均再帰型MDPのユニークな構造特性を考察し,これを用いてReward-Extended Differential (RED) 強化学習を導入する。
論文 参考訳(メタデータ) (2024-10-14T14:52:23Z) - Offline Bayesian Aleatoric and Epistemic Uncertainty Quantification and Posterior Value Optimisation in Finite-State MDPs [3.1139806580181006]
有限状態マルコフ決定過程(MDP)のオフライン使用例におけるベイズの不確かさを未知のダイナミクスで定量化することの課題に対処する。
我々は標準ベイズ強化学習法を用いて,MDPパラメータの後方不確実性を捉える。
次に、後続サンプル間の戻り分布の最初の2つのモーメントを解析的に計算し、全分散の法則を適用する。
我々は,AIクリニック問題に適用することで,実世界の影響と計算能力のスケーラビリティを強調した。
論文 参考訳(メタデータ) (2024-06-04T16:21:14Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Human-Algorithm Collaborative Bayesian Optimization for Engineering Systems [0.0]
我々は、協調ベイズ最適化のためのアプローチを概説することで、データ駆動意思決定ループに人間を再導入する。
我々の手法は、人間は連続的な選択よりも離散的な選択をより効率的に行うことができるという仮説を生かしている。
本稿では, バイオプロセス最適化やリアクトル幾何設計を含む, 応用および数値ケーススタディにまたがるアプローチを実証する。
論文 参考訳(メタデータ) (2024-04-16T23:17:04Z) - Risk-Sensitive RL with Optimized Certainty Equivalents via Reduction to
Standard RL [48.1726560631463]
我々は,OCE(Optimized Certainty Equivalent)リスクを用いたリスク感性強化学習について検討した。
標準RLへの還元による2つの一般的なメタアルゴリズムを提案する。
我々は,事前アルゴリズムが確実に失敗する間に,最適リスク感応ポリシーを学習することを示す。
論文 参考訳(メタデータ) (2024-03-10T21:45:12Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Risk-Averse Bayes-Adaptive Reinforcement Learning [3.5289688061934963]
ベイズ適応マルコフ決定過程(MDP)における総リターンの条件値(CVaR)を最適化する問題を提起する。
この設定でCVaRを最適化する政策は、MDPの事前分布によるパラメトリック不確実性と、MDPの固有性による内部不確実性の両方に反するものである。
我々の実験は,本手法がこの問題に対するベースラインアプローチより著しく優れていることを示した。
論文 参考訳(メタデータ) (2021-02-10T22:34:33Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。