論文の概要: Robust Risk-Aware Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2108.10403v1
- Date: Mon, 23 Aug 2021 20:56:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-25 14:05:03.076277
- Title: Robust Risk-Aware Reinforcement Learning
- Title(参考訳): ロバストリスク対応強化学習
- Authors: Sebastian Jaimungal, Silvana Pesenti, Ye Sheng Wang, and Hariom Tatsat
- Abstract要約: 本稿では、リスク認識性能基準の堅牢な最適化のための強化学習(RL)手法を提案する。
ランク依存予測ユーティリティ(RDEU)を用いて政策の価値を評価する。
モデル不確実性に対する最適ポリシーを確固たるものにするために、我々は、その分布ではなく、ワッサーシュタイン球の内部にある最悪の分布によってポリシーを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a reinforcement learning (RL) approach for robust optimisation of
risk-aware performance criteria. To allow agents to express a wide variety of
risk-reward profiles, we assess the value of a policy using rank dependent
expected utility (RDEU). RDEU allows the agent to seek gains, while
simultaneously protecting themselves against downside events. To robustify
optimal policies against model uncertainty, we assess a policy not by its
distribution, but rather, by the worst possible distribution that lies within a
Wasserstein ball around it. Thus, our problem formulation may be viewed as an
actor choosing a policy (the outer problem), and the adversary then acting to
worsen the performance of that strategy (the inner problem). We develop
explicit policy gradient formulae for the inner and outer problems, and show
its efficacy on three prototypical financial problems: robust portfolio
allocation, optimising a benchmark, and statistical arbitrage
- Abstract(参考訳): 本稿では、リスク認識性能基準の堅牢な最適化のための強化学習(RL)手法を提案する。
エージェントが様々なリスク・リワードプロファイルを表現できるようにするために,ランク依存型予測ユーティリティ(RDEU)を用いて政策の価値を評価する。
RDEUはエージェントがゲインを求め、同時にダウンサイドイベントから自身を保護する。
モデル不確実性に対する最適ポリシーを確固たるものにするために、我々はその分布ではなく、ワッサーシュタイン球の内部にある最悪の分布によってポリシーを評価する。
このように、我々の問題定式化は、ポリシー(外部問題)を選択するアクターと見なすことができ、敵は、その戦略(内部問題)の性能を悪化させるために行動する。
我々は,内外問題に対する明示的な政策勾配を定式化し,ロバスト・ポートフォリオ・アロケーション,ベンチマークの最適化,統計的仲裁という3つの原型的金融問題に対する効果を示す。
関連論文リスト
- Model-Based Epistemic Variance of Values for Risk-Aware Policy
Optimization [63.32053223422317]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
特に、MDP上の分布によって誘導される値の分散を特徴付けることに焦点をあてる。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Efficient Action Robust Reinforcement Learning with Probabilistic Policy
Execution Uncertainty [43.55450683502937]
本稿では,確率的政策実行の不確実性を考慮したアクションロバストなRLに着目した。
我々は,確率的政策実行の不確実性を伴う行動堅牢なMDPに対する最適政策の存在を確立する。
我々はまた、最適な後悔とサンプルの複雑さを最小限に抑えるAction Robust Reinforcement Learning with Certificates (ARRLC)アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-07-15T00:26:51Z) - Robust Risk-Aware Option Hedging [2.405471533561618]
本稿では、経路依存型金融デリバティブに関連するリスクを軽減するために、ロバストリスク認識強化学習(RL)の可能性を示す。
この手法をバリアオプションのヘッジに適用し、エージェントがリスク回避からリスク探究へと移行するにつれて、最適なヘッジ戦略が歪曲する方法について強調する。
論文 参考訳(メタデータ) (2023-03-27T13:57:13Z) - A Risk-Sensitive Approach to Policy Optimization [21.684251937825234]
標準深層強化学習(DRL)は、政策の定式化における収集経験を均等に考慮し、期待される報酬を最大化することを目的としている。
そこで本研究では,フルエピソード報酬の分布の累積分布関数 (CDF) で規定されるリスク感性目標を最適化する,より直接的なアプローチを提案する。
エージェントの動作が不十分なシナリオを強調する中程度の「悲観的」リスクプロファイルの使用が,探索の強化と,障害への継続的な対処に繋がることを示す。
論文 参考訳(メタデータ) (2022-08-19T00:55:05Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Risk-Averse Offline Reinforcement Learning [46.383648750385575]
高度なアプリケーションでRL(Training Reinforcement Learning)エージェントを訓練することは、探索に伴うリスクのため、あまりにも禁じられている可能性がある。
O-RAAC(Offline Risk-Averse Actor-Critic)は,完全オフライン環境でリスク-Averseポリシーを学習可能なモデルフリーRLアルゴリズムである。
論文 参考訳(メタデータ) (2021-02-10T10:27:49Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Improving Robustness via Risk Averse Distributional Reinforcement
Learning [13.467017642143581]
実環境ではなくシミュレーションでポリシーが訓練される場合、ロバスト性は重要である。
本研究では,シミュレーショントレーニングと実世界の実装のギャップを埋めるため,ロバストなポリシーを学習するためのリスク認識アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-01T20:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。