論文の概要: Non-stationary Risk-sensitive Reinforcement Learning: Near-optimal
Dynamic Regret, Adaptive Detection, and Separation Design
- arxiv url: http://arxiv.org/abs/2211.10815v1
- Date: Sat, 19 Nov 2022 22:40:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 22:54:16.213235
- Title: Non-stationary Risk-sensitive Reinforcement Learning: Near-optimal
Dynamic Regret, Adaptive Detection, and Separation Design
- Title(参考訳): 非定常リスク感応型強化学習:準最適動的回帰、適応検出、分離設計
- Authors: Yuhao Ding, Ming Jin, Javad Lavaei
- Abstract要約: エピソード非定常マルコフ決定過程(MDP)におけるエントロピー的リスク尺度に基づくリスク感受性強化学習(RL)について検討する。
本稿では,再起動型アルゴリズムであるRestart-RSMBとRestart-RSQを提案する。
この研究は、文献における非定常リスク感受性RLに対する最初の非漸近的理論解析を提供する。
- 参考スコア(独自算出の注目度): 9.554944575754638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study risk-sensitive reinforcement learning (RL) based on an entropic risk
measure in episodic non-stationary Markov decision processes (MDPs). Both the
reward functions and the state transition kernels are unknown and allowed to
vary arbitrarily over time with a budget on their cumulative variations. When
this variation budget is known a prior, we propose two restart-based
algorithms, namely Restart-RSMB and Restart-RSQ, and establish their dynamic
regrets. Based on these results, we further present a meta-algorithm that does
not require any prior knowledge of the variation budget and can adaptively
detect the non-stationarity on the exponential value functions. A dynamic
regret lower bound is then established for non-stationary risk-sensitive RL to
certify the near-optimality of the proposed algorithms. Our results also show
that the risk control and the handling of the non-stationarity can be
separately designed in the algorithm if the variation budget is known a prior,
while the non-stationary detection mechanism in the adaptive algorithm depends
on the risk parameter. This work offers the first non-asymptotic theoretical
analyses for the non-stationary risk-sensitive RL in the literature.
- Abstract(参考訳): エピソード非定常マルコフ決定過程(MDP)におけるエントロピー的リスク尺度に基づくリスク感受性強化学習(RL)について検討した。
報酬関数と状態遷移カーネルはともに未知であり、累積変動の予算とともに時間とともに任意に変化する。
この変動予算が事前に知られている場合、再起動に基づく2つのアルゴリズム、すなわちRestart-RSMBとRestart-RSQを提案する。
これらの結果に基づき、変動予算に関する事前の知識を必要とせず、指数関数上の非定常性を適応的に検出できるメタアルゴリズムを提案する。
そして、提案アルゴリズムのほぼ最適性を証明するために、非定常リスク感応性RLに対して動的後悔の下限を確立する。
また, 適応アルゴリズムにおける非定常検出機構はリスクパラメータに依存するが, 変動予算を事前に知っていれば, リスク制御と非定常性の処理は別々に設計できることを示した。
この研究は、文献における非定常リスク感受性RLに対する最初の非漸近理論解析を提供する。
関連論文リスト
- Model-Based Epistemic Variance of Values for Risk-Aware Policy
Optimization [63.32053223422317]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
特に、MDP上の分布によって誘導される値の分散を特徴付けることに焦点をあてる。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Risk-sensitive Markov Decision Process and Learning under General
Utility Functions [3.6260136172126667]
強化学習(Reinforcement Learning, RL)は、様々な応用分野や理論的研究において大きな注目を集めている。
累積報酬の空間上でのエプシロン被覆を用いた修正値アルゴリズムを提案する。
シミュレータが存在しない場合,提案アルゴリズムは高信頼度探索法を用いて設計され,ほぼ最適ポリシーを同定する。
論文 参考訳(メタデータ) (2023-11-22T18:50:06Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - One Risk to Rule Them All: A Risk-Sensitive Perspective on Model-Based
Offline Reinforcement Learning [25.218430053391884]
両問題に共同で対処するためのメカニズムとしてリスク感受性を提案する。
相対的不確実性へのリスク回避は、環境に悪影響を及ぼす可能性のある行動を妨げる。
実験の結果,提案アルゴリズムは決定論的ベンチマーク上での競合性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-11-30T21:24:11Z) - Conditionally Elicitable Dynamic Risk Measures for Deep Reinforcement
Learning [0.0]
我々は,ディープニューラルネットワークを用いた動的スペクトルリスク尺度のクラスを推定する効率的な手法を開発した。
また,リスクに敏感なアクター・クリティック・アルゴリズムも開発しており,追加のネスト・トランジションを必要としない。
論文 参考訳(メタデータ) (2022-06-29T14:11:15Z) - The Unreasonable Effectiveness of Deep Evidential Regression [72.30888739450343]
不確実性を考慮した回帰ベースニューラルネットワーク(NN)による新しいアプローチは、従来の決定論的手法や典型的なベイズ的NNよりも有望であることを示している。
我々は、理論的欠点を詳述し、合成および実世界のデータセットのパフォーマンスを分析し、Deep Evidential Regressionが正確な不確実性ではなく定量化であることを示す。
論文 参考訳(メタデータ) (2022-05-20T10:10:32Z) - Multivariate Deep Evidential Regression [77.34726150561087]
不確実性を認識するニューラルネットワークによる新しいアプローチは、従来の決定論的手法よりも有望である。
本稿では,レグレッションベースニューラルネットワークからアレータ性およびてんかん性不確かさを抽出する手法を提案する。
論文 参考訳(メタデータ) (2021-04-13T12:20:18Z) - A Regret Minimization Approach to Iterative Learning Control [61.37088759497583]
我々は、標準的な不確実性の仮定を最悪の場合の後悔に置き換える新しいパフォーマンスメトリック、計画後悔を提案します。
提案アルゴリズムがいくつかのベンチマークで既存の手法よりも優れているという理論的および実証的な証拠を提供します。
論文 参考訳(メタデータ) (2021-02-26T13:48:49Z) - The Risks of Invariant Risk Minimization [52.7137956951533]
不変リスク最小化(Invariant Risk Minimization)は、データの深い不変性を学ぶという考え方に基づく目標である。
我々は、IRMの目的に基づく分類の最初の分析と、最近提案されたこれらの代替案について、かなり自然で一般的なモデルで分析する。
IRMは、テストデータがトレーニング分布と十分に類似していない限り、破滅的に失敗する可能性がある。
論文 参考訳(メタデータ) (2020-10-12T14:54:32Z) - Nonstationary Reinforcement Learning with Linear Function Approximation [24.910327525332463]
ドリフト環境下での線形関数近似によるマルコフ決定過程(MDP)における強化学習について考察する。
我々はまず、$textttLSVI-UCB-Restart$アルゴリズムを開発し、変動予算が分かっている場合にその動的後悔境界を確立する。
次にパラメータフリーアルゴリズムである$textttAda-LSVI-UCB-Restart$を提案する。
論文 参考訳(メタデータ) (2020-10-08T20:07:44Z) - Reinforcement Learning for Non-Stationary Markov Decision Processes: The
Blessing of (More) Optimism [25.20231604057821]
非定常条件下でのマルコフ決定過程(MDP)におけるRL(un-discounted reinforcement learning)について考察する。
まず, 信頼性拡張学習(SWUCRL2-CW) アルゴリズムを用いて, Sliding Window Up-Confidence bound for Reinforcement Learning with Confidence Widening (SWUCRL2-CW) を提案する。
SWUCRL2-CWアルゴリズムを適応的に調整し,同じダイナミックなリセット境界を実現するBORLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-24T15:40:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。