論文の概要: Mean-Semivariance Policy Optimization via Risk-Averse Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2206.07376v1
- Date: Wed, 15 Jun 2022 08:32:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-16 12:42:18.677600
- Title: Mean-Semivariance Policy Optimization via Risk-Averse Reinforcement
Learning
- Title(参考訳): リスク回避強化学習による平均-半分散政策最適化
- Authors: Xiaoteng Ma, Shuai Ma, Li Xia, Qianchuan Zhao
- Abstract要約: 本稿では,強化学習における平均半変量基準の最適化を目的とした。
我々は,政策依存型報酬関数を用いて一連のRL問題を反復的に解くことで,MSV問題を解くことができることを明らかにした。
政策勾配理論と信頼領域法に基づく2つのオンラインアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 12.022303947412917
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Keeping risk under control is often more crucial than maximizing expected
reward in real-world decision-making situations, such as finance, robotics,
autonomous driving, etc. The most natural choice of risk measures is variance,
while it penalizes the upside volatility as much as the downside part. Instead,
the (downside) semivariance, which captures negative deviation of a random
variable under its mean, is more suitable for risk-averse proposes. This paper
aims at optimizing the mean-semivariance (MSV) criterion in reinforcement
learning w.r.t. steady rewards. Since semivariance is time-inconsistent and
does not satisfy the standard Bellman equation, the traditional dynamic
programming methods are inapplicable to MSV problems directly. To tackle this
challenge, we resort to the Perturbation Analysis (PA) theory and establish the
performance difference formula for MSV. We reveal that the MSV problem can be
solved by iteratively solving a sequence of RL problems with a policy-dependent
reward function. Further, we propose two on-policy algorithms based on the
policy gradient theory and the trust region method. Finally, we conduct diverse
experiments from simple bandit problems to continuous control tasks in MuJoCo,
which demonstrate the effectiveness of our proposed methods.
- Abstract(参考訳): 金融、ロボティクス、自動運転といった現実世界の意思決定状況において、リスクをコントロールし続けることは、期待される報酬を最大化するよりも重要であることが多い。
リスク対策の最も自然な選択はばらつきであり、一方、逆方向のボラティリティをマイナス側の部分と同じくらいペナルティ化する。
代わりに、その平均の下で確率変数の負の偏差をキャプチャする(ダウンサイド)半分散は、リスク回避の提案により適している。
本稿では,強化学習における平均半変量(MSV)基準の最適化を目的とした。
半分散は時間的に一貫性がなく、標準ベルマン方程式を満たさないため、従来の動的プログラミング手法はMSV問題に直接適用できない。
この課題に対処するために、摂動解析(PA)理論を採用し、MSVの性能差式を確立する。
我々は,政策依存報酬関数を用いてrl問題の系列を反復的に解くことにより,msv問題を解決できることを明らかにした。
さらに,政策勾配理論と信頼領域法に基づく2つのオンポリシーアルゴリズムを提案する。
最後に,単純なバンディット問題からムジョコの連続制御タスクまで多様な実験を行い,提案手法の有効性を実証する。
関連論文リスト
- Stationary Policies are Optimal in Risk-averse Total-reward MDPs with EVaR [12.719528972742394]
リスク・アバースの総報酬基準は定常政策によって最適化可能であることを示す。
以上の結果から, リスク回避型強化学習領域において, 全報酬基準が割引基準よりも望ましい可能性が示唆された。
論文 参考訳(メタデータ) (2024-08-30T13:33:18Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Continuous Mean-Covariance Bandits [39.820490484375156]
本稿では,選択肢相関を考慮した連続平均共分散帯域モデルを提案する。
CMCBでは、与えられた選択肢の重みベクトルを逐次選択し、決定に従ってランダムなフィードバックを観察する学習者がいる。
最適な後悔(対数的因子を含む)を伴う新しいアルゴリズムを提案し、それらの最適性を検証するために一致した下界を提供する。
論文 参考訳(メタデータ) (2021-02-24T06:37:05Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - The Risks of Invariant Risk Minimization [52.7137956951533]
不変リスク最小化(Invariant Risk Minimization)は、データの深い不変性を学ぶという考え方に基づく目標である。
我々は、IRMの目的に基づく分類の最初の分析と、最近提案されたこれらの代替案について、かなり自然で一般的なモデルで分析する。
IRMは、テストデータがトレーニング分布と十分に類似していない限り、破滅的に失敗する可能性がある。
論文 参考訳(メタデータ) (2020-10-12T14:54:32Z) - Mean-Variance Policy Iteration for Risk-Averse Reinforcement Learning [75.17074235764757]
割引無限地平線MDPにおけるリスク・アバース制御の枠組みを提案する。
MVPIは、政策評価方法やリスクニュートラル制御手法を棚から外すためのリスク・アバース制御に投入できる点において、非常に柔軟性がある。
この柔軟性は、リスク中立制御とリスク逆制御のギャップを減らし、新しい拡張MDPの開発によって達成される。
論文 参考訳(メタデータ) (2020-04-22T22:23:44Z) - Cautious Reinforcement Learning via Distributional Risk in the Dual
Domain [45.17200683056563]
マルコフ決定過程(MDP)によって定義される強化学習問題において,状態と行動空間が可算有限である場合のリスク感受性ポリシーの推定について検討する。
本稿では,強化学習の線形プログラミング(LP)の2つの目的に付加されるペナルティ関数として,新たなリスク定義を提案する。
論文 参考訳(メタデータ) (2020-02-27T23:18:04Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。