論文の概要: Risk-Averse Bayes-Adaptive Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.05762v1
- Date: Wed, 10 Feb 2021 22:34:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-12 14:24:11.925447
- Title: Risk-Averse Bayes-Adaptive Reinforcement Learning
- Title(参考訳): リスク回避ベイズ適応強化学習
- Authors: Marc Rigter, Bruno Lacerda, Nick Hawes
- Abstract要約: ベイズ適応マルコフ決定過程(MDP)における総リターンの条件値(CVaR)を最適化する問題を提起する。
この設定でCVaRを最適化する政策は、MDPの事前分布によるパラメトリック不確実性と、MDPの固有性による内部不確実性の両方に反するものである。
我々の実験は,本手法がこの問題に対するベースラインアプローチより著しく優れていることを示した。
- 参考スコア(独自算出の注目度): 3.5289688061934963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we address risk-averse Bayesadaptive reinforcement learning. We
pose the problem of optimising the conditional value at risk (CVaR) of the
total return in Bayes-adaptive Markov decision processes (MDPs). We show that a
policy optimising CVaR in this setting is risk-averse to both the parametric
uncertainty due to the prior distribution over MDPs, and the internal
uncertainty due to the inherent stochasticity of MDPs. We reformulate the
problem as a two-player stochastic game and propose an approximate algorithm
based on Monte Carlo tree search and Bayesian optimisation. Our experiments
demonstrate that our approach significantly outperforms baseline approaches for
this problem.
- Abstract(参考訳): 本稿では,リスク回避ベイズ適応強化学習について述べる。
我々は,bayes-adaptive markov decision process (mdps) におけるトータルリターンのリスク条件値(cvar)を最適化する問題を提起する。
本稿では,本設定におけるCVaRを最適化する政策は,MDPに対する事前分布によるパラメトリック不確実性と,MDPの固有の確率性による内部不確実性の両方に反するリスクであることを示す。
この問題を2人のプレイヤーによる確率ゲームとして再構成し,モンテカルロ木探索とベイズ最適化に基づく近似アルゴリズムを提案する。
実験により,本手法がこの問題に対するベースラインアプローチを大幅に上回ることを示した。
関連論文リスト
- Robust Risk-Sensitive Reinforcement Learning with Conditional Value-at-Risk [23.63388546004777]
我々はロバスト・マルコフ決定過程の下でCVaRに基づくリスク感受性RLのロバスト性を分析する。
実世界の問題における意思決定依存の不確実性の存在を動機として、状態行動依存曖昧性集合による問題を研究する。
論文 参考訳(メタデータ) (2024-05-02T20:28:49Z) - Risk-Sensitive RL with Optimized Certainty Equivalents via Reduction to
Standard RL [48.1726560631463]
我々は,OCE(Optimized Certainty Equivalent)リスクを用いたリスク感性強化学習について検討した。
標準RLへの還元による2つの一般的なメタアルゴリズムを提案する。
我々は,事前アルゴリズムが確実に失敗する間に,最適リスク感応ポリシーを学習することを示す。
論文 参考訳(メタデータ) (2024-03-10T21:45:12Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Bayesian Risk-Averse Q-Learning with Streaming Observations [7.330349128557128]
我々は,学習エージェントが模擬学習環境から学習する,堅牢な強化学習問題を考える。
エージェントの制御外にある実環境からの観測が定期的に到着する。
実環境からのストリーミング観測でBRMDPを解くための多段階ベイズリスク逆Q-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-05-18T20:48:50Z) - Risk-Averse MDPs under Reward Ambiguity [9.929659318167731]
本稿では,リスクと報酬のあいまいさの下で,マルコフ決定過程(MDP)の分布的に堅牢なリターンリスクモデルを提案する。
スケーラブルな一階述語アルゴリズムは大規模問題の解法として設計されている。
論文 参考訳(メタデータ) (2023-01-03T11:06:30Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Risk-averse Heteroscedastic Bayesian Optimization [45.12421486836736]
リスク回避型ヘテロセダスティックベイズ最適化アルゴリズム(RAHBO)を提案する。
RAHBOは、ハイリターンと低ノイズ分散の解を、ハエの騒音分布を学習しながら同定することを目的としている。
単一のソリューションのみを識別しなければならないアプリケーションに対して、最終的な決定ポイントを報告するための堅牢なルールを提供します。
論文 参考訳(メタデータ) (2021-11-05T17:38:34Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。