論文の概要: A Risk-Sensitive Approach to Policy Optimization
- arxiv url: http://arxiv.org/abs/2208.09106v2
- Date: Thu, 16 Nov 2023 03:51:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 23:14:28.770751
- Title: A Risk-Sensitive Approach to Policy Optimization
- Title(参考訳): 政策最適化に対するリスク感作的アプローチ
- Authors: Jared Markowitz, Ryan W. Gardner, Ashley Llorens, Raman Arora, I-Jeng
Wang
- Abstract要約: 標準深層強化学習(DRL)は、政策の定式化における収集経験を均等に考慮し、期待される報酬を最大化することを目的としている。
そこで本研究では,フルエピソード報酬の分布の累積分布関数 (CDF) で規定されるリスク感性目標を最適化する,より直接的なアプローチを提案する。
エージェントの動作が不十分なシナリオを強調する中程度の「悲観的」リスクプロファイルの使用が,探索の強化と,障害への継続的な対処に繋がることを示す。
- 参考スコア(独自算出の注目度): 21.684251937825234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard deep reinforcement learning (DRL) aims to maximize expected reward,
considering collected experiences equally in formulating a policy. This differs
from human decision-making, where gains and losses are valued differently and
outlying outcomes are given increased consideration. It also fails to
capitalize on opportunities to improve safety and/or performance through the
incorporation of distributional context. Several approaches to distributional
DRL have been investigated, with one popular strategy being to evaluate the
projected distribution of returns for possible actions. We propose a more
direct approach whereby risk-sensitive objectives, specified in terms of the
cumulative distribution function (CDF) of the distribution of full-episode
rewards, are optimized. This approach allows for outcomes to be weighed based
on relative quality, can be used for both continuous and discrete action
spaces, and may naturally be applied in both constrained and unconstrained
settings. We show how to compute an asymptotically consistent estimate of the
policy gradient for a broad class of risk-sensitive objectives via sampling,
subsequently incorporating variance reduction and regularization measures to
facilitate effective on-policy learning. We then demonstrate that the use of
moderately "pessimistic" risk profiles, which emphasize scenarios where the
agent performs poorly, leads to enhanced exploration and a continual focus on
addressing deficiencies. We test the approach using different risk profiles in
six OpenAI Safety Gym environments, comparing to state of the art on-policy
methods. Without cost constraints, we find that pessimistic risk profiles can
be used to reduce cost while improving total reward accumulation. With cost
constraints, they are seen to provide higher positive rewards than risk-neutral
approaches at the prescribed allowable cost.
- Abstract(参考訳): 標準深層強化学習(DRL)は、政策の定式化における収集経験を均等に考慮し、期待される報酬を最大化することを目的としている。
これは人的意思決定と異なり、利得と損失を異なる価値で評価し、その結果が考慮される。
また、分散コンテキストの導入を通じて、安全性と/またはパフォーマンスを改善する機会を活かすことにも失敗している。
分布DRLに対するいくつかのアプローチが研究され、ある一般的な戦略は、可能なアクションに対するリターンの予測分布を評価することである。
本稿では,全報酬の分配の累積分布関数(cdf)で規定されるリスクに敏感な目標を最適化する,より直接的なアプローチを提案する。
このアプローチは、相対的な品質に基づいて結果を測定することができ、連続的および離散的なアクション空間の両方に使用することができ、自然に制約付きおよび制約なしの設定に適用することができる。
そこで本研究では,幅広いリスクに敏感な対象の政策勾配の漸近的に一貫した推定をサンプリングし,分散削減と正規化を組み込んで効果的なオンポリシー学習を促進する手法を提案する。
次に,エージェントの動作不良を強調する中程度に"悲観的"なリスクプロファイルの使用が,探索の促進と欠陥への継続的な対処に結びつくことを実証する。
我々は,6つのOpenAIセーフティガイム環境において,異なるリスクプロファイルを用いてアプローチをテストする。
コスト制約がなければ、悲観的なリスクプロファイルはコスト削減に有効であり、全体の報酬蓄積を改善することができる。
コスト制約により、それらは所定の許容コストでリスク中立アプローチよりも高いポジティブな報酬を提供する。
関連論文リスト
- Data-driven decision-making under uncertainty with entropic risk measure [5.407319151576265]
エントロピーリスク尺度は、不確実な損失に関連する尾のリスクを考慮に入れた高い意思決定に広く用いられている。
経験的エントロピーリスク推定器を劣化させるため, 強く一貫したブートストラップ手法を提案する。
検証性能のバイアスが補正されない場合,クロスバリデーション手法は,保険業者のアウト・オブ・サンプルリスクを著しく高める可能性があることを示す。
論文 参考訳(メタデータ) (2024-09-30T04:02:52Z) - Policy Gradient Methods for Risk-Sensitive Distributional Reinforcement Learning with Provable Convergence [15.720824593964027]
リスクに敏感な強化学習(RL)は、高い評価のアプリケーションにおいて信頼性の高い性能を維持するために不可欠である。
本稿では、一般的なコヒーレントリスク対策を用いたリスク感応型DRLのポリシー勾配法を提案する。
また、カテゴリー分布ポリシー評価と軌道勾配推定に基づくカテゴリー分布ポリシー勾配アルゴリズム(CDPG)を設計する。
論文 参考訳(メタデータ) (2024-05-23T16:16:58Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Bayesian Robust Optimization for Imitation Learning [34.40385583372232]
逆強化学習は、パラメータ化された報酬関数を学習することにより、新しい状態への一般化を可能にする。
既存のIRLに基づく安全な模倣学習アプローチは、maxminフレームワークを使用してこの不確実性に対処する。
BROILは、リターン最大化とリスク最小化の動作を補間する自然な方法を提供する。
論文 参考訳(メタデータ) (2020-07-24T01:52:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。