論文の概要: Approximate gradient ascent methods for distortion risk measures
- arxiv url: http://arxiv.org/abs/2202.11046v1
- Date: Tue, 22 Feb 2022 17:26:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 16:17:06.529098
- Title: Approximate gradient ascent methods for distortion risk measures
- Title(参考訳): 歪みリスク対策のための近似勾配上昇法
- Authors: Nithia Vijayan and Prashanth L.A
- Abstract要約: 本稿では,マルコフ決定過程について考察し,累積割引報酬の歪みリスク尺度(DRM)を用いてリスクをモデル化する。
本アルゴリズムは,累積報酬の順序統計値を用いてDRMを推定し,スムーズな関数ベース勾配推定手法を用いてDRM推定値から近似勾配を算出する。
- 参考スコア(独自算出の注目度): 8.655294504286635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose approximate gradient ascent algorithms for risk-sensitive
reinforcement learning control problem in on-policy as well as off-policy
settings. We consider episodic Markov decision processes, and model the risk
using distortion risk measure (DRM) of the cumulative discounted reward. Our
algorithms estimate the DRM using order statistics of the cumulative rewards,
and calculate approximate gradients from the DRM estimates using a smoothed
functional-based gradient estimation scheme. We derive non-asymptotic bounds
that establish the convergence of our proposed algorithms to an approximate
stationary point of the DRM objective.
- Abstract(参考訳): 本研究では, リスク感応性強化学習制御問題に対する近似勾配上昇アルゴリズムを提案する。
我々は,エピソジックマルコフ決定過程を検討し,累積割引報酬の歪みリスク尺度(drm)を用いてリスクをモデル化する。
アルゴリズムは累積報酬の順序統計を用いてDRMを推定し,スムーズな関数ベース勾配推定手法を用いてDRM推定から近似勾配を計算する。
我々は,提案アルゴリズムをDRM目標のほぼ定常点に収束させる非漸近境界を導出する。
関連論文リスト
- Spectral-Risk Safe Reinforcement Learning with Convergence Guarantees [13.470544618339506]
本稿では、スペクトルリスク尺度制約付きRLアルゴリズム、スペクトルリスク制約付きポリシー最適化(SRCPO)を提案する。
双レベル最適化構造では、外部問題はリスク測度から導出される双対変数を最適化することであり、内部問題は最適ポリシーを見つけることである。
提案手法は連続制御タスク上で評価され,制約を満たす他のRCRLアルゴリズムの中で最高の性能を示した。
論文 参考訳(メタデータ) (2024-05-29T02:17:25Z) - Risk-Sensitive RL with Optimized Certainty Equivalents via Reduction to
Standard RL [48.1726560631463]
我々は,OCE(Optimized Certainty Equivalent)リスクを用いたリスク感性強化学習について検討した。
標準RLへの還元による2つの一般的なメタアルゴリズムを提案する。
我々は,事前アルゴリズムが確実に失敗する間に,最適リスク感応ポリシーを学習することを示す。
論文 参考訳(メタデータ) (2024-03-10T21:45:12Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - Distributional Method for Risk Averse Reinforcement Learning [0.0]
リスク逆マルコフ決定過程における最適政策を学習するための分布法を提案する。
我々は、状態、行動、コストの連続的な観察を仮定し、動的リスク尺度を用いて政策のパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-02-27T19:48:42Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Reinforcement Learning with Dynamic Convex Risk Measures [0.0]
モデルレス強化学習(RL)を用いた時間一貫性リスク感応的最適化問題の解法を開発する。
我々は、時間一貫性のある動的プログラミング原則を用いて、特定のポリシーの価値を決定し、ポリシー勾配更新ルールを開発する。
論文 参考訳(メタデータ) (2021-12-26T16:41:05Z) - Policy Gradient Methods for Distortion Risk Measures [9.554545881355377]
強化学習フレームワークにおいてリスクに敏感なポリシーを学習するポリシー勾配アルゴリズムを提案する。
我々はDRM目標に適合するポリシー勾配定理の変種を導出し、確率比に基づく勾配推定スキームと統合する。
論文 参考訳(メタデータ) (2021-07-09T13:14:12Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Entropic Risk Constrained Soft-Robust Policy Optimization [12.362670630646805]
モデル不確実性によって引き起こされるリスクを定量化し、管理することは、高リスク領域において重要である。
本稿では,モデルの不確実性に対するリスクに反する,エントロピー的リスク制約付きポリシー勾配とアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-20T23:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。