論文の概要: Bayesian Residual Policy Optimization: Scalable Bayesian Reinforcement
Learning with Clairvoyant Experts
- arxiv url: http://arxiv.org/abs/2002.03042v1
- Date: Fri, 7 Feb 2020 23:10:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 05:12:03.265065
- Title: Bayesian Residual Policy Optimization: Scalable Bayesian Reinforcement
Learning with Clairvoyant Experts
- Title(参考訳): ベイズ残留政策最適化:透視的専門家によるスケーラブルベイズ強化学習
- Authors: Gilwoo Lee, Brian Hou, Sanjiban Choudhury, Siddhartha S. Srinivasa
- Abstract要約: 我々はこれを潜在マルコフ決定過程(MDP)上のベイズ強化学習として定式化する。
我々はまず,各潜伏したMDPに対して専門家のアンサンブルを取得し,基本方針を計算するためのアドバイスを融合させる。
次に、アンサンブルの勧告を改善するためにベイズ残留政策を訓練し、不確実性を減らすことを学ぶ。
BRPOは専門家のアンサンブルを著しく改善し、既存の適応RL法を大幅に上回っている。
- 参考スコア(独自算出の注目度): 22.87432549580184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Informed and robust decision making in the face of uncertainty is critical
for robots that perform physical tasks alongside people. We formulate this as
Bayesian Reinforcement Learning over latent Markov Decision Processes (MDPs).
While Bayes-optimality is theoretically the gold standard, existing algorithms
do not scale well to continuous state and action spaces. Our proposal builds on
the following insight: in the absence of uncertainty, each latent MDP is easier
to solve. We first obtain an ensemble of experts, one for each latent MDP, and
fuse their advice to compute a baseline policy. Next, we train a Bayesian
residual policy to improve upon the ensemble's recommendation and learn to
reduce uncertainty. Our algorithm, Bayesian Residual Policy Optimization
(BRPO), imports the scalability of policy gradient methods and task-specific
expert skills. BRPO significantly improves the ensemble of experts and
drastically outperforms existing adaptive RL methods.
- Abstract(参考訳): 不確実性に直面したインフォームで堅牢な意思決定は、人と一緒に物理的タスクを行うロボットにとって極めて重要である。
我々はこれを潜在マルコフ決定過程(mdps)上のベイズ強化学習として定式化する。
ベイズ最適性は理論的には金の標準であるが、既存のアルゴリズムは連続状態や作用空間にうまくスケールしない。
提案は,不確実性がない場合,各潜伏型MDPの解決が容易である。
我々はまず,各潜伏したMDPに対して専門家のアンサンブルを取得し,基本方針を計算するためのアドバイスを融合させる。
次に,アンサンブルのレコメンデーションを改善するためにベイズ残留政策を訓練し,不確実性を減らすことを学ぶ。
我々のアルゴリズムであるbayesian residual policy optimization(brpo)は、ポリシー勾配法とタスク固有のエキスパートスキルのスケーラビリティをインポートする。
BRPOは専門家のアンサンブルを著しく改善し、既存の適応RL法を大幅に上回っている。
関連論文リスト
- Risk-Sensitive RL with Optimized Certainty Equivalents via Reduction to
Standard RL [48.1726560631463]
我々は,OCE(Optimized Certainty Equivalent)リスクを用いたリスク感性強化学習について検討した。
標準RLへの還元による2つの一般的なメタアルゴリズムを提案する。
我々は,事前アルゴリズムが確実に失敗する間に,最適リスク感応ポリシーを学習することを示す。
論文 参考訳(メタデータ) (2024-03-10T21:45:12Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy
Optimization [63.32053223422317]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
特に、MDP上の分布によって誘導される値の分散を特徴付けることに焦点をあてる。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Bayesian Exploration Networks [30.98996034003365]
ベイズ RL の鍵となる課題は、ベイズ最適化ポリシーを学習する際の計算複雑性である。
この課題に対処するための新しいモデルフリーアプローチを提案する。
提案手法は,既存のモデルフリーアプローチが失敗するタスクにおいて,ベイズ最適ポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2023-08-24T19:35:58Z) - ContraBAR: Contrastive Bayes-Adaptive Deep RL [22.649531458557206]
メタ強化学習(メタRL)では、エージェントが未知のタスクに直面するときの最適なポリシーであるベイズ最適ポリシーを求める。
ベイズ最適行動の学習にコントラスト法が有効かどうかを検討する。
本稿では,変分的信念推論の代わりにコントラスト的予測符号化(CPC)を用いる単純なメタRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-04T17:50:20Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Beyond Value-Function Gaps: Improved Instance-Dependent Regret Bounds
for Episodic Reinforcement Learning [50.44564503645015]
有限エピソードマルコフ決定過程における強化学習のための改良されたギャップ依存的後悔境界を提供する。
楽観的なアルゴリズムでは,より強い後悔境界を証明し,多数のMDPに対して新たな情報理論的下限を伴う。
論文 参考訳(メタデータ) (2021-07-02T20:36:05Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Risk-Averse Bayes-Adaptive Reinforcement Learning [3.5289688061934963]
ベイズ適応マルコフ決定過程(MDP)における総リターンの条件値(CVaR)を最適化する問題を提起する。
この設定でCVaRを最適化する政策は、MDPの事前分布によるパラメトリック不確実性と、MDPの固有性による内部不確実性の両方に反するものである。
我々の実験は,本手法がこの問題に対するベースラインアプローチより著しく優れていることを示した。
論文 参考訳(メタデータ) (2021-02-10T22:34:33Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。