論文の概要: A Natural Actor-Critic Algorithm with Downside Risk Constraints
- arxiv url: http://arxiv.org/abs/2007.04203v1
- Date: Wed, 8 Jul 2020 15:44:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 09:54:03.085883
- Title: A Natural Actor-Critic Algorithm with Downside Risk Constraints
- Title(参考訳): ダウンサイドリスク制約を持つ自然アクター批判アルゴリズム
- Authors: Thomas Spooner and Rahul Savani
- Abstract要約: 我々は、その非線型性を回避するために、下の部分モーメントを上界とする新しいベルマン方程式を導入する。
我々は、この部分モーメントのプロキシが収縮であることを証明し、分散分解によるアルゴリズムの安定性の直感を与える。
提案手法を自然政策勾配に拡張し,リスクに敏感な強化学習のための3つのベンチマーク問題に対するアプローチの有効性を実証する。
- 参考スコア(独自算出の注目度): 5.482532589225552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing work on risk-sensitive reinforcement learning - both for symmetric
and downside risk measures - has typically used direct Monte-Carlo estimation
of policy gradients. While this approach yields unbiased gradient estimates, it
also suffers from high variance and decreased sample efficiency compared to
temporal-difference methods. In this paper, we study prediction and control
with aversion to downside risk which we gauge by the lower partial moment of
the return. We introduce a new Bellman equation that upper bounds the lower
partial moment, circumventing its non-linearity. We prove that this proxy for
the lower partial moment is a contraction, and provide intuition into the
stability of the algorithm by variance decomposition. This allows
sample-efficient, on-line estimation of partial moments. For risk-sensitive
control, we instantiate Reward Constrained Policy Optimization, a recent
actor-critic method for finding constrained policies, with our proxy for the
lower partial moment. We extend the method to use natural policy gradients and
demonstrate the effectiveness of our approach on three benchmark problems for
risk-sensitive reinforcement learning.
- Abstract(参考訳): リスクに敏感な強化学習に関する既存の研究は、対称とダウンサイドのリスク対策の両方において、政策勾配の直接モンテカルロ推定を用いている。
このアプローチは偏りのない勾配推定をもたらすが、時間微分法に比べて高い分散とサンプル効率の低下に苦しむ。
本稿では,回帰の下位部分モーメントを指標とした負のリスク回避による予測と制御について検討する。
我々は,その非線形性を回避し,下部部分モーメントを上限とする新しいベルマン方程式を導入する。
下位部分モーメントに対するこのプロキシが縮小であることを証明し、分散分解によるアルゴリズムの安定性に対する直観を与える。
これにより、サンプル効率が良く、部分モーメントのオンライン推定が可能になる。
リスクに敏感な制御では、制約されたポリシーを見つけるための近年のアクタークリティカルな手法であるReward Constrained Policy Optimizationを、より低い部分モーメントのプロキシでインスタンス化する。
提案手法を自然政策勾配に拡張し,リスクに敏感な強化学習のための3つのベンチマーク問題に対するアプローチの有効性を示す。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Risk-averse Learning with Non-Stationary Distributions [18.15046585146849]
本稿では,ランダムなコスト分布が時間とともに変化するリスク-逆オンライン最適化について検討する。
リスクの条件値(CVaR)をリスク尺度として用いたリスク逆目的関数を最小化する。
設計した学習アルゴリズムは,凸関数と凸関数の両方に対して高い確率で線形動的後悔を実現する。
論文 参考訳(メタデータ) (2024-04-03T18:16:47Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - An Alternative to Variance: Gini Deviation for Risk-averse Policy
Gradient [35.01235012813407]
政策の回帰の分散を制限することは、リスク回避強化学習において一般的な選択である。
最近の手法では、プロキシとしてのステップごとの報酬分散が制限されている。
代替リスク尺度であるGini deviation を代替として用いることを提案する。
論文 参考訳(メタデータ) (2023-07-17T22:08:27Z) - Vector-Valued Least-Squares Regression under Output Regularity
Assumptions [73.99064151691597]
最小二乗回帰問題を無限次元出力で解くために,還元ランク法を提案し,解析する。
提案手法の学習バウンダリを導出し、フルランク手法と比較して統計的性能の設定を改善する研究を行う。
論文 参考訳(メタデータ) (2022-11-16T15:07:00Z) - Risk-aware linear bandits with convex loss [0.0]
提案手法は, 線形帯域幅の一般化に類似した, 最適リスク認識動作を学習するための楽観的 UCB アルゴリズムを提案する。
このアプローチではアルゴリズムの各ラウンドで凸問題を解く必要があり、オンライン勾配降下法によって得られる近似解のみを許すことで緩和することができる。
論文 参考訳(メタデータ) (2022-09-15T09:09:53Z) - A Temporal-Difference Approach to Policy Gradient Estimation [27.749993205038148]
本稿では,特定のサンプリング戦略を必要とせず,開始状態から方針勾配を再構築する新しい手法を提案する。
本研究では、非政治データストリームからの勾配批判の時間差更新を用いて、分散シフト問題をモデル無しでサイドステップする最初の推定器を開発する。
論文 参考訳(メタデータ) (2022-02-04T21:23:33Z) - Variance Penalized On-Policy and Off-Policy Actor-Critic [60.06593931848165]
本稿では,平均値と変動値の両方を含むパフォーマンス基準を最適化する,オン・ポリティィおよびオフ・ポリティィ・アクター・クリティカルなアルゴリズムを提案する。
提案手法は, アクタ批判的かつ事前の分散-ペナライゼーションベースラインに匹敵するだけでなく, リターンのばらつきが低いトラジェクトリも生成する。
論文 参考訳(メタデータ) (2021-02-03T10:06:16Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Cautious Reinforcement Learning via Distributional Risk in the Dual
Domain [45.17200683056563]
マルコフ決定過程(MDP)によって定義される強化学習問題において,状態と行動空間が可算有限である場合のリスク感受性ポリシーの推定について検討する。
本稿では,強化学習の線形プログラミング(LP)の2つの目的に付加されるペナルティ関数として,新たなリスク定義を提案する。
論文 参考訳(メタデータ) (2020-02-27T23:18:04Z) - Statistically Efficient Off-Policy Policy Gradients [80.42316902296832]
政治外のデータから政策勾配を統計的に効率的に推定する。
パラメトリックな仮定を伴わずに下界を実現するメタアルゴリズムを提案する。
我々は、新たな推定政策勾配の方向へ進む際に、定常点に近づく速度の保証を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。