論文の概要: Regret Bounds for Risk-sensitive Reinforcement Learning with Lipschitz
Dynamic Risk Measures
- arxiv url: http://arxiv.org/abs/2306.02399v1
- Date: Sun, 4 Jun 2023 16:24:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 18:07:15.670227
- Title: Regret Bounds for Risk-sensitive Reinforcement Learning with Lipschitz
Dynamic Risk Measures
- Title(参考訳): リプシッツ動的リスク対策によるリスク感受性強化学習のためのレグレト境界
- Authors: Hao Liang, Zhi-quan Luo
- Abstract要約: EmphLipschitz動的リスク尺度に適用した2つのモデルベースアルゴリズムを提案する。
特に、私たちの上限は、アクションの数とエピソード数に最適な依存を示す。
- 参考スコア(独自算出の注目度): 23.46659319363579
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study finite episodic Markov decision processes incorporating dynamic risk
measures to capture risk sensitivity. To this end, we present two model-based
algorithms applied to \emph{Lipschitz} dynamic risk measures, a wide range of
risk measures that subsumes spectral risk measure, optimized certainty
equivalent, distortion risk measures among others. We establish both regret
upper bounds and lower bounds. Notably, our upper bounds demonstrate optimal
dependencies on the number of actions and episodes, while reflecting the
inherent trade-off between risk sensitivity and sample complexity.
Additionally, we substantiate our theoretical results through numerical
experiments.
- Abstract(参考訳): リスクセンシティブを捉えるために動的リスク対策を組み込んだ有限エピソジックマルコフ決定過程について検討する。
そこで,本稿では,スペクトルリスク測度,最適化された確実性等価性,歪みリスク測度などを推定する,広範囲のリスク尺度である \emph{lipschitz} 動的リスク測度に適用する2つのモデルに基づくアルゴリズムを提案する。
我々は上界と下界の両方を後悔する。
特に、私たちの上限は、リスク感受性とサンプルの複雑さのトレードオフを反映しつつ、アクションの数とエピソード数に最適な依存を示す。
さらに,理論結果を数値実験により検証する。
関連論文リスト
- RiskQ: Risk-sensitive Multi-Agent Reinforcement Learning Value Factorization [49.26510528455664]
本稿では,リスクに敏感な個人・グローバル・マックス(RIGM)の原則を,個人・グローバル・マックス(IGM)と分散IGM(DIGM)の原則の一般化として紹介する。
RiskQは広範な実験によって有望な性能が得られることを示す。
論文 参考訳(メタデータ) (2023-11-03T07:18:36Z) - Capsa: A Unified Framework for Quantifying Risk in Deep Neural Networks [142.67349734180445]
ディープニューラルネットワークにリスク認識を提供する既存のアルゴリズムは複雑でアドホックである。
ここでは、リスク認識でモデルを拡張するためのフレームワークであるcapsaを紹介します。
論文 参考訳(メタデータ) (2023-08-01T02:07:47Z) - On the Global Convergence of Risk-Averse Policy Gradient Methods with
Expected Conditional Risk Measures [18.46039792659141]
リスクに敏感な強化学習(RL)は、不確実な結果のリスクを制御する一般的なツールとなっている。
我々は、対応するリスク-逆勾配アルゴリズムのグローバル収束と反復複雑性を提供する。
論文 参考訳(メタデータ) (2023-01-26T04:35:28Z) - Risk-Averse Reinforcement Learning via Dynamic Time-Consistent Risk
Measures [10.221369785560785]
本稿では,マルコフ決定過程(MDP)における報酬列の動的リスクを最大化する問題について考察する。
予測と条件付きリスクリスク(CVaR)の凸結合を特別な一段階の条件付きリスク尺度として用いて、我々は、リスク回避型MDPを、強化されたアクション空間を持つリスク中立型として再構成し、即時報酬の操作を行う。
本研究は,リスク・アバース・セッティングが分散を低減し,その結果のロバスト性を高めることを示唆するものである。
論文 参考訳(メタデータ) (2023-01-14T21:43:18Z) - RASR: Risk-Averse Soft-Robust MDPs with EVaR and Entropic Risk [28.811725782388688]
本研究では,有限水平および割引無限水平MDPにおける不確実性に関連するリスクを共同でモデル化する新しい枠組みを提案し,分析する。
リスク回避をEVaRかエントロピーリスクのいずれかを用いて定義すると、RASRの最適ポリシーは時間依存型リスクレベルを持つ新しい動的プログラム定式化を用いて効率的に計算できることを示す。
論文 参考訳(メタデータ) (2022-09-09T00:34:58Z) - Conditionally Elicitable Dynamic Risk Measures for Deep Reinforcement
Learning [0.0]
我々は,ディープニューラルネットワークを用いた動的スペクトルリスク尺度のクラスを推定する効率的な手法を開発した。
また,リスクに敏感なアクター・クリティック・アルゴリズムも開発しており,追加のネスト・トランジションを必要としない。
論文 参考訳(メタデータ) (2022-06-29T14:11:15Z) - A Survey of Risk-Aware Multi-Armed Bandits [84.67376599822569]
我々は、様々な利害リスク対策をレビューし、その特性についてコメントする。
我々は,探索と探索のトレードオフが現れる,後悔の最小化設定のためのアルゴリズムを検討する。
今後の研究の課題と肥大化についてコメントし、締めくくりに締めくくります。
論文 参考訳(メタデータ) (2022-05-12T02:20:34Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。
本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-11-16T15:53:22Z) - Entropic Risk Constrained Soft-Robust Policy Optimization [12.362670630646805]
モデル不確実性によって引き起こされるリスクを定量化し、管理することは、高リスク領域において重要である。
本稿では,モデルの不確実性に対するリスクに反する,エントロピー的リスク制約付きポリシー勾配とアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-20T23:48:28Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。