論文の概要: Bridging Distributional and Risk-sensitive Reinforcement Learning with
Provable Regret Bounds
- arxiv url: http://arxiv.org/abs/2210.14051v3
- Date: Thu, 25 Jan 2024 13:23:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 19:04:14.048068
- Title: Bridging Distributional and Risk-sensitive Reinforcement Learning with
Provable Regret Bounds
- Title(参考訳): 確率的回帰境界を用いたブリッジング分布とリスク感性強化学習
- Authors: Hao Liang, Zhi-Quan Luo
- Abstract要約: エントロピーリスク尺度(EntRM)が目的である有限エピソードマルコフ決定過程を考察する。
モデルフリーとモデルベースを含む2つの異なるスキームを用いて最適化を実装する2つの新しいDRLアルゴリズムを提案する。
いずれも$tildemathcalO(fracexp(|beta|H)-1|beta|HsqrtS2AK)$ regret upper bound, where $S$, $A$, $K$, $H$は数値を表す。
- 参考スコア(独自算出の注目度): 24.571530193140916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the regret guarantee for risk-sensitive reinforcement learning
(RSRL) via distributional reinforcement learning (DRL) methods. In particular,
we consider finite episodic Markov decision processes whose objective is the
entropic risk measure (EntRM) of return. By leveraging a key property of the
EntRM, the independence property, we establish the risk-sensitive
distributional dynamic programming framework. We then propose two novel DRL
algorithms that implement optimism through two different schemes, including a
model-free one and a model-based one.
We prove that they both attain $\tilde{\mathcal{O}}(\frac{\exp(|\beta|
H)-1}{|\beta|}H\sqrt{S^2AK})$ regret upper bound, where $S$, $A$, $K$, and $H$
represent the number of states, actions, episodes, and the time horizon,
respectively. It matches RSVI2 proposed in \cite{fei2021exponential}, with
novel distributional analysis. To the best of our knowledge, this is the first
regret analysis that bridges DRL and RSRL in terms of sample complexity.
Acknowledging the computational inefficiency associated with the model-free
DRL algorithm, we propose an alternative DRL algorithm with distribution
representation. This approach not only maintains the established regret bounds
but also significantly amplifies computational efficiency.
We also prove a tighter minimax lower bound of $\Omega(\frac{\exp(\beta
H/6)-1}{\beta H}H\sqrt{SAT})$ for the $\beta>0$ case, which recovers the tight
lower bound $\Omega(H\sqrt{SAT})$ in the risk-neutral setting.
- Abstract(参考訳): 本稿では,危険感応性強化学習(RSRL)に対する後悔の保証について,分布性強化学習(DRL)法を用いて検討する。
特に,回帰のエントロピーリスク測度 (entrm) を目標とする有限エピソディックマルコフ決定過程を考える。
entrmの重要な特性である独立性を利用して、リスクに敏感な分散動的プログラミングフレームワークを確立する。
次に、モデルフリーとモデルベースを含む2つの異なるスキームを通して最適化を実装する2つの新しいDRLアルゴリズムを提案する。
両者ともに$\tilde{\mathcal{o}}(\frac{\exp(|\beta| h)-1}{|\beta|}h\sqrt{s^2ak}) を成すことを証明し、ここではそれぞれ$s$、$a$、$k$、$h$ が状態、アクション、エピソード、時間軸の数を表す。
これは \cite{fei2021exponential} で提案された rsvi2 と新しい分布解析と一致する。
我々の知る限りでは、DRLとRSRLをサンプルの複雑さで橋渡しするのは、これが初めての後悔の意である。
モデルフリーのDRLアルゴリズムに付随する計算効率の低下を認め,分布表現を用いたDRLアルゴリズムを提案する。
このアプローチは、確立された後悔境界を維持するだけでなく、計算効率を大幅に増幅する。
また、リスクニュートラルな設定で、より厳密なミニマックス下限の$\Omega(\frac{\exp(\beta H/6)-1}{\beta H}H\sqrt{SAT})$を$\beta>0$ケースに対して証明し、より厳密な下限の$\Omega(H\sqrt{SAT})$を復元する。
関連論文リスト
- Provably Efficient CVaR RL in Low-rank MDPs [58.58570425202862]
リスクに敏感な強化学習(RL)について検討する。
本稿では, CVaR RLにおける探索, 搾取, 表現学習の相互作用のバランスをとるための, 新たなアッパー信頼境界(UCB)ボーナス駆動アルゴリズムを提案する。
提案アルゴリズムは,各エピソードの長さが$H$,アクション空間が$A$,表現の次元が$d$であるような,エプシロン$最適CVaRのサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2023-11-20T17:44:40Z) - Settling the Sample Complexity of Online Reinforcement Learning [92.02082223856479]
バーンインコストを発生させることなく、最小限の最適後悔を実現する方法を示す。
最適値/コストや一定の分散といった問題依存量の影響を明らかにするために、我々の理論を拡張します。
論文 参考訳(メタデータ) (2023-07-25T15:42:11Z) - Reward-Free RL is No Harder Than Reward-Aware RL in Linear Markov
Decision Processes [61.11090361892306]
Reward-free reinforcement learning (RL) は、エージェントが探索中に報酬関数にアクセスできないような環境を考える。
この分離は線形MDPの設定には存在しないことを示す。
我々は$d$次元線形 MDP における報酬のない RL に対する計算効率の良いアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-01-26T22:09:59Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z) - Risk-Sensitive Reinforcement Learning: Near-Optimal Risk-Sample Tradeoff
in Regret [115.85354306623368]
本研究では,未知の遷移カーネルを持つマルコフ決定過程におけるリスク感応性強化学習について検討する。
確率的に効率的なモデルレスアルゴリズムとして、リスク感性価値反復(RSVI)とリスク感性Q-ラーニング(RSQ)を提案する。
RSVIが $tildeObig(lambda(|beta| H2) cdot sqrtH3 S2AT big) に達したことを証明しています。
論文 参考訳(メタデータ) (2020-06-22T19:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。