論文の概要: Non-stationary Risk-sensitive Reinforcement Learning: Near-optimal
Dynamic Regret, Adaptive Detection, and Separation Design
- arxiv url: http://arxiv.org/abs/2211.10815v1
- Date: Sat, 19 Nov 2022 22:40:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 22:54:16.213235
- Title: Non-stationary Risk-sensitive Reinforcement Learning: Near-optimal
Dynamic Regret, Adaptive Detection, and Separation Design
- Title(参考訳): 非定常リスク感応型強化学習:準最適動的回帰、適応検出、分離設計
- Authors: Yuhao Ding, Ming Jin, Javad Lavaei
- Abstract要約: エピソード非定常マルコフ決定過程(MDP)におけるエントロピー的リスク尺度に基づくリスク感受性強化学習(RL)について検討する。
本稿では,再起動型アルゴリズムであるRestart-RSMBとRestart-RSQを提案する。
この研究は、文献における非定常リスク感受性RLに対する最初の非漸近的理論解析を提供する。
- 参考スコア(独自算出の注目度): 9.554944575754638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study risk-sensitive reinforcement learning (RL) based on an entropic risk
measure in episodic non-stationary Markov decision processes (MDPs). Both the
reward functions and the state transition kernels are unknown and allowed to
vary arbitrarily over time with a budget on their cumulative variations. When
this variation budget is known a prior, we propose two restart-based
algorithms, namely Restart-RSMB and Restart-RSQ, and establish their dynamic
regrets. Based on these results, we further present a meta-algorithm that does
not require any prior knowledge of the variation budget and can adaptively
detect the non-stationarity on the exponential value functions. A dynamic
regret lower bound is then established for non-stationary risk-sensitive RL to
certify the near-optimality of the proposed algorithms. Our results also show
that the risk control and the handling of the non-stationarity can be
separately designed in the algorithm if the variation budget is known a prior,
while the non-stationary detection mechanism in the adaptive algorithm depends
on the risk parameter. This work offers the first non-asymptotic theoretical
analyses for the non-stationary risk-sensitive RL in the literature.
- Abstract(参考訳): エピソード非定常マルコフ決定過程(MDP)におけるエントロピー的リスク尺度に基づくリスク感受性強化学習(RL)について検討した。
報酬関数と状態遷移カーネルはともに未知であり、累積変動の予算とともに時間とともに任意に変化する。
この変動予算が事前に知られている場合、再起動に基づく2つのアルゴリズム、すなわちRestart-RSMBとRestart-RSQを提案する。
これらの結果に基づき、変動予算に関する事前の知識を必要とせず、指数関数上の非定常性を適応的に検出できるメタアルゴリズムを提案する。
そして、提案アルゴリズムのほぼ最適性を証明するために、非定常リスク感応性RLに対して動的後悔の下限を確立する。
また, 適応アルゴリズムにおける非定常検出機構はリスクパラメータに依存するが, 変動予算を事前に知っていれば, リスク制御と非定常性の処理は別々に設計できることを示した。
この研究は、文献における非定常リスク感受性RLに対する最初の非漸近理論解析を提供する。
関連論文リスト
- Pessimism Meets Risk: Risk-Sensitive Offline Reinforcement Learning [19.292214425524303]
リスクに敏感な強化学習(RL)は,不確実性を管理し,潜在的な有害な結果を最小限に抑えることが不可欠であるシナリオにおいて,意思決定を強化する能力において重要な分野である。
本研究は, エントロピーリスク尺度をRL問題に適用することに焦点を当てる。
我々は,リスクに敏感な観点からはまだ検討されていない理論的枠組みである線形マルコフ決定プロセス(MDP)の設定を中心としている。
論文 参考訳(メタデータ) (2024-07-10T13:09:52Z) - Robust Risk-Sensitive Reinforcement Learning with Conditional Value-at-Risk [23.63388546004777]
我々はロバスト・マルコフ決定過程の下でCVaRに基づくリスク感受性RLのロバスト性を分析する。
実世界の問題における意思決定依存の不確実性の存在を動機として、状態行動依存曖昧性集合による問題を研究する。
論文 参考訳(メタデータ) (2024-05-02T20:28:49Z) - Continuous-time Risk-sensitive Reinforcement Learning via Quadratic Variation Penalty [5.710971447109951]
本稿では,連続時間リスク感応性強化学習(RL)について検討する。
従来の政策勾配表現は2次変動の非線形性に起因するリスク感受性問題には不十分である。
本稿では,メルトンの投資問題に対する提案アルゴリズムの収束性を証明し,学習過程の挙動に対する温度パラメータの影響を定量化する。
論文 参考訳(メタデータ) (2024-04-19T03:05:41Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Risk-sensitive Markov Decision Process and Learning under General
Utility Functions [3.6260136172126667]
強化学習(Reinforcement Learning, RL)は、様々な応用分野や理論的研究において大きな注目を集めている。
累積報酬の空間上でのエプシロン被覆を用いた修正値アルゴリズムを提案する。
シミュレータが存在しない場合,提案アルゴリズムは高信頼度探索法を用いて設計され,ほぼ最適ポリシーを同定する。
論文 参考訳(メタデータ) (2023-11-22T18:50:06Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - The Unreasonable Effectiveness of Deep Evidential Regression [72.30888739450343]
不確実性を考慮した回帰ベースニューラルネットワーク(NN)による新しいアプローチは、従来の決定論的手法や典型的なベイズ的NNよりも有望であることを示している。
我々は、理論的欠点を詳述し、合成および実世界のデータセットのパフォーマンスを分析し、Deep Evidential Regressionが正確な不確実性ではなく定量化であることを示す。
論文 参考訳(メタデータ) (2022-05-20T10:10:32Z) - Multivariate Deep Evidential Regression [77.34726150561087]
不確実性を認識するニューラルネットワークによる新しいアプローチは、従来の決定論的手法よりも有望である。
本稿では,レグレッションベースニューラルネットワークからアレータ性およびてんかん性不確かさを抽出する手法を提案する。
論文 参考訳(メタデータ) (2021-04-13T12:20:18Z) - A Regret Minimization Approach to Iterative Learning Control [61.37088759497583]
我々は、標準的な不確実性の仮定を最悪の場合の後悔に置き換える新しいパフォーマンスメトリック、計画後悔を提案します。
提案アルゴリズムがいくつかのベンチマークで既存の手法よりも優れているという理論的および実証的な証拠を提供します。
論文 参考訳(メタデータ) (2021-02-26T13:48:49Z) - The Risks of Invariant Risk Minimization [52.7137956951533]
不変リスク最小化(Invariant Risk Minimization)は、データの深い不変性を学ぶという考え方に基づく目標である。
我々は、IRMの目的に基づく分類の最初の分析と、最近提案されたこれらの代替案について、かなり自然で一般的なモデルで分析する。
IRMは、テストデータがトレーニング分布と十分に類似していない限り、破滅的に失敗する可能性がある。
論文 参考訳(メタデータ) (2020-10-12T14:54:32Z) - Reinforcement Learning for Non-Stationary Markov Decision Processes: The
Blessing of (More) Optimism [25.20231604057821]
非定常条件下でのマルコフ決定過程(MDP)におけるRL(un-discounted reinforcement learning)について考察する。
まず, 信頼性拡張学習(SWUCRL2-CW) アルゴリズムを用いて, Sliding Window Up-Confidence bound for Reinforcement Learning with Confidence Widening (SWUCRL2-CW) を提案する。
SWUCRL2-CWアルゴリズムを適応的に調整し,同じダイナミックなリセット境界を実現するBORLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-24T15:40:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。