論文の概要: Risk-Sensitive Reinforcement Learning: Near-Optimal Risk-Sample Tradeoff
in Regret
- arxiv url: http://arxiv.org/abs/2006.13827v1
- Date: Mon, 22 Jun 2020 19:28:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 05:58:47.200511
- Title: Risk-Sensitive Reinforcement Learning: Near-Optimal Risk-Sample Tradeoff
in Regret
- Title(参考訳): リスク感性強化学習:レグレットにおけるほぼ最適リスクサンプルトレードオフ
- Authors: Yingjie Fei, Zhuoran Yang, Yudong Chen, Zhaoran Wang, Qiaomin Xie
- Abstract要約: 本研究では,未知の遷移カーネルを持つマルコフ決定過程におけるリスク感応性強化学習について検討する。
確率的に効率的なモデルレスアルゴリズムとして、リスク感性価値反復(RSVI)とリスク感性Q-ラーニング(RSQ)を提案する。
RSVIが $tildeObig(lambda(|beta| H2) cdot sqrtH3 S2AT big) に達したことを証明しています。
- 参考スコア(独自算出の注目度): 115.85354306623368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study risk-sensitive reinforcement learning in episodic Markov decision
processes with unknown transition kernels, where the goal is to optimize the
total reward under the risk measure of exponential utility. We propose two
provably efficient model-free algorithms, Risk-Sensitive Value Iteration (RSVI)
and Risk-Sensitive Q-learning (RSQ). These algorithms implement a form of
risk-sensitive optimism in the face of uncertainty, which adapts to both
risk-seeking and risk-averse modes of exploration. We prove that RSVI attains
an $\tilde{O}\big(\lambda(|\beta| H^2) \cdot \sqrt{H^{3} S^{2}AT} \big)$
regret, while RSQ attains an $\tilde{O}\big(\lambda(|\beta| H^2) \cdot
\sqrt{H^{4} SAT} \big)$ regret, where $\lambda(u) = (e^{3u}-1)/u$ for $u>0$. In
the above, $\beta$ is the risk parameter of the exponential utility function,
$S$ the number of states, $A$ the number of actions, $T$ the total number of
timesteps, and $H$ the episode length. On the flip side, we establish a regret
lower bound showing that the exponential dependence on $|\beta|$ and $H$ is
unavoidable for any algorithm with an $\tilde{O}(\sqrt{T})$ regret (even when
the risk objective is on the same scale as the original reward), thus
certifying the near-optimality of the proposed algorithms. Our results
demonstrate that incorporating risk awareness into reinforcement learning
necessitates an exponential cost in $|\beta|$ and $H$, which quantifies the
fundamental tradeoff between risk sensitivity (related to aleatoric
uncertainty) and sample efficiency (related to epistemic uncertainty). To the
best of our knowledge, this is the first regret analysis of risk-sensitive
reinforcement learning with the exponential utility.
- Abstract(参考訳): 我々は,未知の遷移核を持つマルコフ決定過程におけるリスクに敏感な強化学習について検討し,指数関数的有用性のリスク尺度の下での総報酬を最適化することを目的としている。
本稿では,リスク・センシティブ・バリュー・イテレーション (RSVI) とリスク・センシティブ・Q-ラーニング (RSQ) の2つのアルゴリズムを提案する。
これらのアルゴリズムは、不確実性に直面したリスクに敏感な楽観主義の形で実装され、リスク探索とリスク回避の両方に適応する。
rsvi は $\tilde{o}\big(\lambda(|\beta| h^2) \cdot \sqrt{h^{3} s^{2}at} \big)$ regret を、rsq は $\tilde{o}\big(\lambda(|\beta| h^2) \cdot \sqrt{h^{4} sat} \big)$ regret を、$\lambda(u) = (e^{3u}-1)/u$ は $u>0$である。
上記の例では、$\beta$は指数ユーティリティ関数のリスクパラメータであり、$S$は状態の数、$A$はアクションの数、$T$はタイムステップの総数、$H$はエピソードの長さである。
逆に、$|\beta|$ および $H$ に対する指数的依存が $\tilde{O}(\sqrt{T})$ regret を持つ任意のアルゴリズムでは避けられない(リスク目標が元の報酬と同じスケールである場合でも)ことを示す後悔の下界を確立し、提案アルゴリズムのほぼ最適性を証明した。
その結果,強化学習にリスク意識を組み込むことで,リスク感受性(アレテータ的不確実性に関するもの)とサンプル効率(認識的不確実性に関するもの)の基本的なトレードオフを定量化する|\beta|$と$h$の指数的コストが必要となることがわかった。
我々の知る限りでは、指数関数的ユーティリティを用いたリスク感受性強化学習を初めて後悔する分析である。
関連論文リスト
- Improved Regret Bound for Safe Reinforcement Learning via Tighter Cost Pessimism and Reward Optimism [1.4999444543328293]
本稿では,新しいコストと報酬関数推定器に基づくモデルベースアルゴリズムを提案する。
我々のアルゴリズムは、$widetildemathcalO((bar C - bar C_b)-1H2.5 SsqrtAK)$の残念な上限を達成する。
論文 参考訳(メタデータ) (2024-10-14T04:51:06Z) - Uncertainty-Aware Reward-Free Exploration with General Function Approximation [69.27868448449755]
本稿では、algと呼ばれる報酬のない強化学習アルゴリズムを提案する。
私たちのアルゴリズムの背後にある重要なアイデアは、環境を探索する上で不確実性を認識した本質的な報酬である。
実験の結果、GFA-RFEは最先端の教師なしRLアルゴリズムよりも優れ、あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2024-06-24T01:37:18Z) - Regret Bounds for Episodic Risk-Sensitive Linear Quadratic Regulator [5.445357652101423]
リスクに敏感な線形二次規制は、リスクに敏感な最適制御における最も基本的な問題の1つである。
簡単な最小二乗グリーディアルゴリズムを提案し、そのアルゴリズムが$widetildemathcalO(log N)$ regretを達成することを示す。
これは、エピソード的リスクに敏感な線形二次的レギュレータに対する最初の後悔の束である。
論文 参考訳(メタデータ) (2024-06-08T06:06:20Z) - Risk Estimation in a Markov Cost Process: Lower and Upper Bounds [3.1484174280822845]
我々はマルコフコストプロセスにおいて、無限水平割引コストのリスク対策を推定する問題に取り組む。
私たちが調査するリスク尺度には、分散、バリュー・アット・リスク(VaR)、条件付きバリュー・アット・リスク(CVaR)がある。
論文 参考訳(メタデータ) (2023-10-17T16:35:39Z) - Near-Minimax-Optimal Risk-Sensitive Reinforcement Learning with CVaR [58.40575099910538]
本研究は,リスク許容度が$tau$のCVaR(Conditional Value at Risk)の目的に着目し,リスクに敏感な強化学習(RL)について検討する。
ミニマックスCVaRの後悔率は$Omega(sqrttau-1AK)$で、$A$はアクションの数、$K$はエピソード数である。
我々は,このアルゴリズムが連続性仮定の下で$widetilde O(tau-1sqrtSAK)$の最適後悔を達成し,一般に近似することを示す。
論文 参考訳(メタデータ) (2023-02-07T02:22:31Z) - Bridging Distributional and Risk-sensitive Reinforcement Learning with
Provable Regret Bounds [24.571530193140916]
エントロピーリスク尺度(EntRM)が目的である有限エピソードマルコフ決定過程を考察する。
モデルフリーとモデルベースを含む2つの異なるスキームを用いて最適化を実装する2つの新しいDRLアルゴリズムを提案する。
いずれも$tildemathcalO(fracexp(|beta|H)-1|beta|HsqrtS2AK)$ regret upper bound, where $S$, $A$, $K$, $H$は数値を表す。
論文 参考訳(メタデータ) (2022-10-25T14:30:48Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Randomized Exploration for Reinforcement Learning with General Value
Function Approximation [122.70803181751135]
本稿では,ランダム化最小二乗値反復(RLSVI)アルゴリズムに着想を得たモデルレス強化学習アルゴリズムを提案する。
提案アルゴリズムは,スカラーノイズを用いたトレーニングデータを簡易に摂動させることにより,探索を促進する。
我々はこの理論を、既知の困難な探査課題にまたがる実証的な評価で補完する。
論文 参考訳(メタデータ) (2021-06-15T02:23:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。