論文の概要: A Model Selection Approach for Corruption Robust Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2110.03580v1
- Date: Thu, 7 Oct 2021 15:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 20:41:49.078665
- Title: A Model Selection Approach for Corruption Robust Reinforcement Learning
- Title(参考訳): 破壊ロバスト強化学習のためのモデル選択手法
- Authors: Chen-Yu Wei, Christoph Dann, Julian Zimmert
- Abstract要約: 我々は,移行と報酬の両面において,敵対的腐敗を伴う強化学習に取り組むためのモデル選択手法を開発した。
我々のアルゴリズムは、$widetildemathcalO(minfrac1Delta, sqrtT+C)$で、$T$はエピソード数、$C$は腐敗の総量、$Delta$はベストとセカンドベストのポリシーの報酬ギャップである。
- 参考スコア(独自算出の注目度): 33.39130388569606
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We develop a model selection approach to tackle reinforcement learning with
adversarial corruption in both transition and reward. For finite-horizon
tabular MDPs, without prior knowledge on the total amount of corruption, our
algorithm achieves a regret bound of
$\widetilde{\mathcal{O}}(\min\{\frac{1}{\Delta}, \sqrt{T}\}+C)$ where $T$ is
the number of episodes, $C$ is the total amount of corruption, and $\Delta$ is
the reward gap between the best and the second-best policy. This is the first
worst-case optimal bound achieved without knowledge of $C$, improving previous
results of Lykouris et al. (2021); Chen et al. (2021); Wu et al. (2021). For
finite-horizon linear MDPs, we develop a computationally efficient algorithm
with a regret bound of $\widetilde{\mathcal{O}}(\sqrt{(1+C)T})$, and another
computationally inefficient one with $\widetilde{\mathcal{O}}(\sqrt{T}+C)$,
improving the result of Lykouris et al. (2021) and answering an open question
by Zhang et al. (2021b). Finally, our model selection framework can be easily
applied to other settings including linear bandits, linear contextual bandits,
and MDPs with general function approximation, leading to several improved or
new results.
- Abstract(参考訳): 我々は,移行と報酬の両面において,敵対的腐敗を伴う強化学習に取り組むモデル選択手法を開発した。
有限水平タブ状MDPの場合、汚職の総量について事前に知ることなく、我々のアルゴリズムは、$\widetilde{\mathcal{O}}(\min\{\frac{1}{\Delta}, \sqrt{T}\}+C)$で、$T$はエピソード数、$C$は腐敗の総量、$\Delta$はベストとセカンドベストのポリシーの間の報酬ギャップである。
これは、Lykouris et al. (2021)、Chen et al. (2021)、Wu et al. (2021)の以前の結果を改善し、$C$の知識なしに達成された最初の最悪のケース最適境界である。
有限ホリゾン線形mdpに対して、計算効率の良い計算効率のよいアルゴリズムを開発し、その計算効率のよいアルゴリズムは$\widetilde{\mathcal{o}}(\sqrt{(1+c)t})$ であり、計算効率の悪いアルゴリズムは$\widetilde{\mathcal{o}}(\sqrt{t}+c)$ であり、lykouris et al. (2021) の結果を改善し、zhang et al. (2021b) による解答である。
最後に,我々のモデル選択フレームワークは,線形帯域幅,線形コンテキスト帯域幅,一般関数近似によるMDPなどの他の設定にも容易に適用でき,いくつかの改良や新たな結果が得られる。
関連論文リスト
- Corruption-Robust Offline Reinforcement Learning with General Function
Approximation [60.91257031278004]
一般関数近似を用いたオフライン強化学習(RL)における劣化問題について検討する。
我々のゴールは、崩壊しないマルコフ決定プロセス(MDP)の最適方針に関して、このような腐敗に対して堅牢で、最適でないギャップを最小限に抑える政策を見つけることである。
論文 参考訳(メタデータ) (2023-10-23T04:07:26Z) - Towards Optimal Regret in Adversarial Linear MDPs with Bandit Feedback [30.337826346496385]
線形マルコフ決定過程におけるオンライン強化学習について,敵対的損失と帯域幅フィードバックを用いて検討した。
既存の手法と比較して、後悔性能を向上させるアルゴリズムを2つ導入する。
論文 参考訳(メタデータ) (2023-10-17T19:43:37Z) - A General Framework for Sequential Decision-Making under Adaptivity
Constraints [112.79808969568253]
適応性制約(まれなポリシースイッチ)とバッチ学習(バッチ学習)という2つの制約の下で、一般的なシーケンシャルな意思決定について検討する。
稀なポリシースイッチの制約に対して、バッチ数で$widetildemathcalO(sqrtK+K/B)$ regretを達成するアルゴリズムを提供する。
バッチ学習制約に対して、バッチ数で$widetildemathcalO(sqrtK+K/B)$ regretを提供するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2023-06-26T07:20:25Z) - Tight Bounds for $\gamma$-Regret via the Decision-Estimation Coefficient [88.86699022151598]
任意の構造化バンディット問題に対する$gamma$-regretの統計的特徴を与える。
この$gamma$-regretは、関数クラス$mathcalF$上の構造化バンディット問題に現れる。
論文 参考訳(メタデータ) (2023-03-06T17:54:33Z) - Refined Regret for Adversarial MDPs with Linear Function Approximation [50.00022394876222]
我々は,損失関数が約1,300ドル以上のエピソードに対して任意に変化するような,敵対的決定過程(MDP)の学習を検討する。
本稿では,同じ設定で$tildemathcal O(K2/3)$に対する後悔を改善する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T14:37:21Z) - Corruption-Robust Algorithms with Uncertainty Weighting for Nonlinear
Contextual Bandits and Markov Decision Processes [59.61248760134937]
本稿では,$tildeO(sqrtT+zeta)$を後悔するアルゴリズムを提案する。
提案アルゴリズムは、最近開発された線形文脈帯域からの不確実性重み付き最小二乗回帰に依存する。
本稿では,提案アルゴリズムをエピソディックなMDP設定に一般化し,まず汚職レベル$zeta$への付加的依存を実現する。
論文 参考訳(メタデータ) (2022-12-12T15:04:56Z) - Revisiting Modified Greedy Algorithm for Monotone Submodular
Maximization with a Knapsack Constraint [75.85952446237599]
修正されたグリードアルゴリズムは、近似係数が0.305$であることを示す。
最適なデータ依存上界を導出する。
また、分岐やバウンドといったアルゴリズムの効率を大幅に改善するためにも使うことができる。
論文 参考訳(メタデータ) (2020-08-12T15:40:21Z) - Learning Infinite-horizon Average-reward MDPs with Linear Function
Approximation [44.374427255708135]
線形関数近似を用いた無限水平平均逆設定でマルコフ決定過程を学習するための新しいアルゴリズムを開発した。
まず,最適$widetildeO(sqrtT)$ regretの計算非効率アルゴリズムを提案する。
次に,逆線形包帯から着想を得て,$widetildeO(sqrtT)$ regretのアルゴリズムを新たに開発した。
論文 参考訳(メタデータ) (2020-07-23T08:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。