論文の概要: Distributional Method for Risk Averse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.14109v1
- Date: Mon, 27 Feb 2023 19:48:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 19:10:44.418990
- Title: Distributional Method for Risk Averse Reinforcement Learning
- Title(参考訳): リスク逆強化学習のための分布法
- Authors: Ziteng Cheng, Sebastian Jaimungal and Nick Martin
- Abstract要約: リスク逆マルコフ決定過程における最適政策を学習するための分布法を提案する。
我々は、状態、行動、コストの連続的な観察を仮定し、動的リスク尺度を用いて政策のパフォーマンスを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a distributional method for learning the optimal policy in risk
averse Markov decision process with finite state action spaces, latent costs,
and stationary dynamics. We assume sequential observations of states, actions,
and costs and assess the performance of a policy using dynamic risk measures
constructed from nested Kusuoka-type conditional risk mappings. For such
performance criteria, randomized policies may outperform deterministic
policies, therefore, the candidate policies lie in the d-dimensional simplex
where d is the cardinality of the action space. Existing risk averse
reinforcement learning methods seldom concern randomized policies, na\"ive
extensions to current setting suffer from the curse of dimensionality. By
exploiting certain structures embedded in the corresponding dynamic programming
principle, we propose a distributional learning method for seeking the optimal
policy. The conditional distribution of the value function is casted into a
specific type of function, which is chosen with in mind the ease of risk averse
optimization. We use a deep neural network to approximate said function,
illustrate that the proposed method avoids the curse of dimensionality in the
exploration phase, and explore the method's performance with a wide range of
model parameters that are picked randomly.
- Abstract(参考訳): リスク逆マルコフ決定過程において,有限状態作用空間,潜伏コスト,定常ダイナミクスを用いて最適ポリシを学習するための分布法を提案する。
我々は,状態,行動,費用の逐次観測を仮定し,ネステッド・クズーカ型条件付リスクマッピングから構築した動的リスク対策を用いて,政策の性能を評価する。
このような性能基準では、ランダム化されたポリシーは決定論的なポリシーより優れているため、候補のポリシーは d が作用空間の濃度である d 次元の単純度に属する。
既存のリスク逆強化学習手法は、無作為なポリシーや、現在の環境への「拡張」が次元性の呪いに苦しむことは滅多にない。
対応する動的プログラミング原理に埋め込まれた特定の構造を活用し,最適方針を求める分布学習法を提案する。
値関数の条件分布は特定の種類の関数にキャストされ、リスク回避最適化の容易さを念頭に置いて選択される。
深層ニューラルネットワークを用いてその関数を近似し,提案手法が探索段階における次元の呪いを回避し,ランダムに選択される幅広いモデルパラメータを用いて手法の性能を探索する。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Risk-Sensitive Reinforcement Learning with Exponential Criteria [0.0]
我々は、堅牢な強化学習ポリシーを定義し、リスクに敏感な強化学習問題を定式化し、それらを近似する。
本稿では,近似更新を用いた乗算ベルマン方程式の解法に基づく新しいオンラインアクター・クリティカルアルゴリズムを提案する。
シミュレーション実験により,提案手法の実装,性能,ロバスト性を評価した。
論文 参考訳(メタデータ) (2022-12-18T04:44:38Z) - A Risk-Sensitive Approach to Policy Optimization [21.684251937825234]
標準深層強化学習(DRL)は、政策の定式化における収集経験を均等に考慮し、期待される報酬を最大化することを目的としている。
そこで本研究では,フルエピソード報酬の分布の累積分布関数 (CDF) で規定されるリスク感性目標を最適化する,より直接的なアプローチを提案する。
エージェントの動作が不十分なシナリオを強調する中程度の「悲観的」リスクプロファイルの使用が,探索の強化と,障害への継続的な対処に繋がることを示す。
論文 参考訳(メタデータ) (2022-08-19T00:55:05Z) - Randomized Policy Optimization for Optimal Stopping [0.0]
本稿では,ランダム化線形ポリシーに基づく最適停止手法を提案する。
提案手法は最先端手法を著しく上回り得ることを示す。
論文 参考訳(メタデータ) (2022-03-25T04:33:15Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Reinforcement Learning with Dynamic Convex Risk Measures [0.0]
モデルレス強化学習(RL)を用いた時間一貫性リスク感応的最適化問題の解法を開発する。
我々は、時間一貫性のある動的プログラミング原則を用いて、特定のポリシーの価値を決定し、ポリシー勾配更新ルールを開発する。
論文 参考訳(メタデータ) (2021-12-26T16:41:05Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Cautious Reinforcement Learning via Distributional Risk in the Dual
Domain [45.17200683056563]
マルコフ決定過程(MDP)によって定義される強化学習問題において,状態と行動空間が可算有限である場合のリスク感受性ポリシーの推定について検討する。
本稿では,強化学習の線形プログラミング(LP)の2つの目的に付加されるペナルティ関数として,新たなリスク定義を提案する。
論文 参考訳(メタデータ) (2020-02-27T23:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。