論文の概要: Efficient Risk-Averse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2205.05138v1
- Date: Tue, 10 May 2022 19:40:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-14 07:29:48.676453
- Title: Efficient Risk-Averse Reinforcement Learning
- Title(参考訳): リスク・アバース強化学習の効率化
- Authors: Ido Greenberg, Yinlam Chow, Mohammad Ghavamzadeh, Shie Mannor
- Abstract要約: リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
- 参考スコア(独自算出の注目度): 79.61412643761034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In risk-averse reinforcement learning (RL), the goal is to optimize some risk
measure of the returns. A risk measure often focuses on the worst returns out
of the agent's experience. As a result, standard methods for risk-averse RL
often ignore high-return strategies. We prove that under certain conditions
this inevitably leads to a local-optimum barrier, and propose a soft risk
mechanism to bypass it. We also devise a novel Cross Entropy module for risk
sampling, which (1) preserves risk aversion despite the soft risk; (2)
independently improves sample efficiency. By separating the risk aversion of
the sampler and the optimizer, we can sample episodes with poor conditions, yet
optimize with respect to successful strategies. We combine these two concepts
in CeSoR - Cross-entropy Soft-Risk optimization algorithm - which can be
applied on top of any risk-averse policy gradient (PG) method. We demonstrate
improved risk aversion in maze navigation, autonomous driving, and resource
allocation benchmarks, including in scenarios where standard risk-averse PG
completely fails.
- Abstract(参考訳): リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
リスク尺度は、しばしばエージェントの経験から得られる最悪のリターンに焦点を当てる。
その結果、リスク回避rlの標準的な方法は高リターン戦略をしばしば無視する。
特定の条件下では、必然的に局所最適障壁を生じさせ、それをバイパスするためのソフトリスクメカニズムを提案する。
また,リスクサンプリングのための新しいクロスエントロピーモジュールを考案し,(1)ソフトリスクにもかかわらずリスク回避を保ち,(2)サンプル効率を独立的に改善する。
スペンサーとオプティマイザのリスク回避を分離することで、低い条件でエピソードをサンプリングできるが、成功する戦略に関して最適化することができる。
我々はこれらの2つの概念をCeSoR - Cross-entropy Soft-Risk Optimization algorithm - に組み合わせ、任意のリスク-逆ポリシー勾配(PG)法に適用できる。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおけるリスク回避の改善を実証し,標準リスク回避PGが完全に失敗するシナリオを含む。
- 全文 参考訳へのリンク
関連論文リスト
- A Survey of Risk-Aware Multi-Armed Bandits [84.67376599822569]
我々は、様々な利害リスク対策をレビューし、その特性についてコメントする。
我々は,探索と探索のトレードオフが現れる,後悔の最小化設定のためのアルゴリズムを検討する。
今後の研究の課題と肥大化についてコメントし、締めくくりに締めくくります。
論文 参考訳(メタデータ) (2022-05-12T02:20:34Z) - Deep Reinforcement Learning for Equal Risk Pricing and Hedging under
Dynamic Expectile Risk Measures [1.2891210250935146]
そこで本稿では,非政治的なアクター批判型深層強化学習アルゴリズムにより,オプションに対する高品質な時間一貫したヘッジポリシーを同定できることを示す。
簡単なバニラオプションとよりエキゾチックなバスケットオプションの両方を含む数値実験により, 単純環境, ほぼ最適なヘッジポリシ, 高精度な価格で, かつ, 多様な成熟度を同時に生成できることが確認された。
全体として、リスクを後回しに評価した場合に、静的リスク測定によって生成された戦略を実際に上回ります。
論文 参考訳(メタデータ) (2021-09-09T02:52:06Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Automatic Risk Adaptation in Distributional Reinforcement Learning [26.113528145137497]
実践的応用における強化学習(RL)エージェントの使用は、最適以下の結果を考慮する必要がある。
これは特に安全クリティカルな環境において重要であり、エラーは高いコストや損害をもたらす可能性がある。
リスク認識エージェントとリスク認識エージェントの両方と比較して, 失敗率を最大7倍に低下させ, 一般化性能を最大14%向上させた。
論文 参考訳(メタデータ) (2021-06-11T11:31:04Z) - Ultra-Reliable Indoor Millimeter Wave Communications using Multiple
Artificial Intelligence-Powered Intelligent Surfaces [115.85072043481414]
複数人工知能(AI)対応再構成可能なインテリジェントサーフェス(RIS)を用いた超信頼性ミリ波(mmW)通信を保証する新しいフレームワークを提案する。
複数のAI駆動RISを使用することで、mmWアクセスポイント(AP)から送信される信号の伝搬方向を変更できます。
mmW APとRISのポリシーを制御するために、2つの集中型および分散コントローラが提案されている。
論文 参考訳(メタデータ) (2021-03-31T19:15:49Z) - On the Convergence and Optimality of Policy Gradient for Markov Coherent
Risk [32.97618081988295]
本稿では,学習方針の準最適性に厳密な上限を与え,その目的の非線形性とリスク回避の度合いへの依存性を特徴付ける。
従来の制限を克服するために, 状態分布の重み付けを用いたPGの実践的実装を提案する。
論文 参考訳(メタデータ) (2021-03-04T04:11:09Z) - SENTINEL: Taming Uncertainty with Ensemble-based Distributional
Reinforcement Learning [6.587644069410234]
モデルベース強化学習(RL)におけるリスク依存型シーケンシャル意思決定の検討
リスクの新たな定量化、すなわちEmphcomposite riskを導入する。
我々は、SENTINEL-Kが戻り分布をよりよく推定し、複合リスク推定と併用しながら、競合するRLアルゴリズムよりもリスクに敏感な性能を示すことを実験的に検証した。
論文 参考訳(メタデータ) (2021-02-22T14:45:39Z) - Risk-Averse Bayes-Adaptive Reinforcement Learning [3.5289688061934963]
ベイズ適応マルコフ決定過程(MDP)における総リターンの条件値(CVaR)を最適化する問題を提起する。
この設定でCVaRを最適化する政策は、MDPの事前分布によるパラメトリック不確実性と、MDPの固有性による内部不確実性の両方に反するものである。
我々の実験は,本手法がこの問題に対するベースラインアプローチより著しく優れていることを示した。
論文 参考訳(メタデータ) (2021-02-10T22:34:33Z) - Risk-Averse Offline Reinforcement Learning [46.383648750385575]
高度なアプリケーションでRL(Training Reinforcement Learning)エージェントを訓練することは、探索に伴うリスクのため、あまりにも禁じられている可能性がある。
O-RAAC(Offline Risk-Averse Actor-Critic)は,完全オフライン環境でリスク-Averseポリシーを学習可能なモデルフリーRLアルゴリズムである。
論文 参考訳(メタデータ) (2021-02-10T10:27:49Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [91.44514047017954]
平均報酬設定下でのリスクに敏感な深層強化学習を,分散リスク基準を用いて初めて検討する。
ポリシ,ラグランジュ乗算器,フェンチェル双変数を反復的かつ効率的に更新するアクタークリティカルアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。