論文の概要: Mean-Variance Policy Iteration for Risk-Averse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2004.10888v6
- Date: Thu, 7 Apr 2022 03:58:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 17:03:01.968229
- Title: Mean-Variance Policy Iteration for Risk-Averse Reinforcement Learning
- Title(参考訳): リスク回避強化学習のための平均変数ポリシーイテレーション
- Authors: Shangtong Zhang, Bo Liu, Shimon Whiteson
- Abstract要約: 割引無限地平線MDPにおけるリスク・アバース制御の枠組みを提案する。
MVPIは、政策評価方法やリスクニュートラル制御手法を棚から外すためのリスク・アバース制御に投入できる点において、非常に柔軟性がある。
この柔軟性は、リスク中立制御とリスク逆制御のギャップを減らし、新しい拡張MDPの開発によって達成される。
- 参考スコア(独自算出の注目度): 75.17074235764757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a mean-variance policy iteration (MVPI) framework for risk-averse
control in a discounted infinite horizon MDP optimizing the variance of a
per-step reward random variable. MVPI enjoys great flexibility in that any
policy evaluation method and risk-neutral control method can be dropped in for
risk-averse control off the shelf, in both on- and off-policy settings. This
flexibility reduces the gap between risk-neutral control and risk-averse
control and is achieved by working on a novel augmented MDP directly. We
propose risk-averse TD3 as an example instantiating MVPI, which outperforms
vanilla TD3 and many previous risk-averse control methods in challenging Mujoco
robot simulation tasks under a risk-aware performance metric. This risk-averse
TD3 is the first to introduce deterministic policies and off-policy learning
into risk-averse reinforcement learning, both of which are key to the
performance boost we show in Mujoco domains.
- Abstract(参考訳): 本稿では、ステップ毎の報酬確率変数の分散を最適化したディスカウント無限大地平線mdpにおいて、リスク回避制御のための平均分散ポリシー反復(mvpi)フレームワークを提案する。
MVPIは、政策評価手法とリスクニュートラル制御手法を、オン・アンド・オフ・政治設定の両方において、棚からリスク・アバース制御に投入できるという点において、非常に柔軟性がある。
この柔軟性は、リスク中立制御とリスク逆制御のギャップを減らし、新しい拡張MDPを直接開発することで達成される。
本稿では,バニラTD3と,それ以前のリスク回避制御手法に優れるMVPIのインスタンス化事例として,リスク認識性能指標の下でのMujocoロボットシミュレーションタスクに挑戦するリスク回避TD3を提案する。
このリスク回避td3は、決定論的ポリシとオフポリシー学習をリスク回避強化学習に導入した最初の例です。
関連論文リスト
- Data-Adaptive Tradeoffs among Multiple Risks in Distribution-Free Prediction [55.77015419028725]
しきい値とトレードオフパラメータが適応的に選択された場合、リスクの有効な制御を可能にする手法を開発する。
提案手法は単調なリスクとほぼ単調なリスクをサポートするが,それ以外は分布的な仮定はしない。
論文 参考訳(メタデータ) (2024-03-28T17:28:06Z) - On the Global Convergence of Risk-Averse Policy Gradient Methods with
Expected Conditional Risk Measures [18.46039792659141]
リスクに敏感な強化学習(RL)は、不確実な結果のリスクを制御する一般的なツールとなっている。
我々は、対応するリスク-逆勾配アルゴリズムのグローバル収束と反復複雑性を提供する。
論文 参考訳(メタデータ) (2023-01-26T04:35:28Z) - Risk-Averse Reinforcement Learning via Dynamic Time-Consistent Risk
Measures [10.221369785560785]
本稿では,マルコフ決定過程(MDP)における報酬列の動的リスクを最大化する問題について考察する。
予測と条件付きリスクリスク(CVaR)の凸結合を特別な一段階の条件付きリスク尺度として用いて、我々は、リスク回避型MDPを、強化されたアクション空間を持つリスク中立型として再構成し、即時報酬の操作を行う。
本研究は,リスク・アバース・セッティングが分散を低減し,その結果のロバスト性を高めることを示唆するものである。
論文 参考訳(メタデータ) (2023-01-14T21:43:18Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Mean-Semivariance Policy Optimization via Risk-Averse Reinforcement
Learning [12.022303947412917]
本稿では,強化学習における平均半変量基準の最適化を目的とした。
我々は,政策依存型報酬関数を用いて一連のRL問題を反復的に解くことで,MSV問題を解くことができることを明らかにした。
政策勾配理論と信頼領域法に基づく2つのオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-15T08:32:53Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Risk-Aware Transfer in Reinforcement Learning using Successor Features [16.328601804662657]
リスク対応後継機能(RaSF)が,実践的な強化学習フレームワークにシームレスに統合されていることを示す。
RaSFは、学習したポリシーのリスクを考慮すると、SFなどの代替手法よりも優れています。
論文 参考訳(メタデータ) (2021-05-28T22:22:03Z) - Ultra-Reliable Indoor Millimeter Wave Communications using Multiple
Artificial Intelligence-Powered Intelligent Surfaces [115.85072043481414]
複数人工知能(AI)対応再構成可能なインテリジェントサーフェス(RIS)を用いた超信頼性ミリ波(mmW)通信を保証する新しいフレームワークを提案する。
複数のAI駆動RISを使用することで、mmWアクセスポイント(AP)から送信される信号の伝搬方向を変更できます。
mmW APとRISのポリシーを制御するために、2つの集中型および分散コントローラが提案されている。
論文 参考訳(メタデータ) (2021-03-31T19:15:49Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。