論文の概要: Exponential Bellman Equation and Improved Regret Bounds for
Risk-Sensitive Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2111.03947v1
- Date: Sat, 6 Nov 2021 19:35:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-09 14:52:07.037462
- Title: Exponential Bellman Equation and Improved Regret Bounds for
Risk-Sensitive Reinforcement Learning
- Title(参考訳): リスク感応強化学習における指数的ベルマン方程式と後悔限界の改善
- Authors: Yingjie Fei, Zhuoran Yang, Yudong Chen, Zhaoran Wang
- Abstract要約: エントロピーリスク尺度に基づいて,リスク感応性強化学習(RL)について検討した。
我々は、既存のアルゴリズムの欠陥と、そのようなギャップをもたらすそれらの分析を識別する。
これらの分析的およびアルゴリズム的革新が組み合わさって、既存のものに対する後悔の上限を改善できることを示す。
- 参考スコア(独自算出の注目度): 106.20712175398275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study risk-sensitive reinforcement learning (RL) based on the entropic
risk measure. Although existing works have established non-asymptotic regret
guarantees for this problem, they leave open an exponential gap between the
upper and lower bounds. We identify the deficiencies in existing algorithms and
their analysis that result in such a gap. To remedy these deficiencies, we
investigate a simple transformation of the risk-sensitive Bellman equations,
which we call the exponential Bellman equation. The exponential Bellman
equation inspires us to develop a novel analysis of Bellman backup procedures
in risk-sensitive RL algorithms, and further motivates the design of a novel
exploration mechanism. We show that these analytic and algorithmic innovations
together lead to improved regret upper bounds over existing ones.
- Abstract(参考訳): エントロピーリスク尺度に基づいてリスク感応性強化学習(RL)について検討した。
既存の作品では、この問題に対する非漸近的後悔の保証を確立しているが、上界と下界の間の指数関数的なギャップを開放している。
我々は、既存のアルゴリズムの欠陥と、そのようなギャップをもたらすそれらの分析を識別する。
これらの欠陥を補うために、指数ベルマン方程式と呼ばれるリスク感受性ベルマン方程式の簡単な変換について検討する。
指数関数的ベルマン方程式は、リスクに敏感なrlアルゴリズムにおけるベルマンバックアップ手順の新しい解析を開発し、さらに新しい探索機構の設計を動機付ける。
これらの分析的およびアルゴリズム的革新が組み合わさって、既存のものに対する後悔の上限を改善できることを示す。
関連論文リスト
- Continuous-time Risk-sensitive Reinforcement Learning via Quadratic Variation Penalty [5.710971447109951]
本稿では,連続時間リスク感応性強化学習(RL)について検討する。
従来の政策勾配表現は2次変動の非線形性に起因するリスク感受性問題には不十分である。
本稿では,メルトンの投資問題に対する提案アルゴリズムの収束性を証明し,学習過程の挙動に対する温度パラメータの影響を定量化する。
論文 参考訳(メタデータ) (2024-04-19T03:05:41Z) - Provably Efficient Partially Observable Risk-Sensitive Reinforcement
Learning with Hindsight Observation [35.278669159850146]
本稿では,後方観測を部分的に観測可能な決定プロセス(POMDP)フレームワークに統合する新しい定式化を提案する。
本研究では,この設定に適したRLアルゴリズムを初めて提案する。
これらの手法は、強化学習の理論的研究に特に関心がある。
論文 参考訳(メタデータ) (2024-02-28T08:24:06Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - Surveillance Evasion Through Bayesian Reinforcement Learning [78.79938727251594]
ランダム終端の強度が全く不明な2次元連続経路計画問題を考える。
これらのオブザーバーの監視強度は未知であり、反復的な経路計画を通じて学ぶ必要がある。
論文 参考訳(メタデータ) (2021-09-30T02:29:21Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - Risk Bounds and Rademacher Complexity in Batch Reinforcement Learning [36.015585972493575]
本稿では,一般値関数近似を用いたバッチ強化学習(RL)について考察する。
Empirical Risk Minimizer (ERM) の過剰リスクは、関数クラスの Rademacher 複雑性によって有界である。
高速統計率は局所ラデマッハ複雑性のツールを使用することで達成できる。
論文 参考訳(メタデータ) (2021-03-25T14:45:29Z) - A Full Characterization of Excess Risk via Empirical Risk Landscape [8.797852602680445]
本稿では,滑らかな凸関数と非損失関数の両方を持つ固有アルゴリズムにより訓練されたモデルのリスクを統一的に解析する。
論文 参考訳(メタデータ) (2020-12-04T08:24:50Z) - Bounded Risk-Sensitive Markov Games: Forward Policy Design and Inverse
Reward Learning with Iterative Reasoning and Cumulative Prospect Theory [33.57592649823294]
本稿では,リスクに敏感なマルコフゲーム(BRSMG)とその逆報酬学習問題について検討する。
我々は,BRSMGにおいて,人間は知能を制限し,リスクに敏感なユーティリティを最大化することを示した。
その結果, エージェントの行動は, リスク・リバース特性とリスク・サーキング特性の両方を示すことがわかった。
論文 参考訳(メタデータ) (2020-09-03T07:32:32Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。