論文の概要: Improved Corruption Robust Algorithms for Episodic Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2102.06875v1
- Date: Sat, 13 Feb 2021 07:04:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 16:10:45.166638
- Title: Improved Corruption Robust Algorithms for Episodic Reinforcement
Learning
- Title(参考訳): 韻律強化学習のための破損ロバストアルゴリズムの改良
- Authors: Yifang Chen, Simon S. Du, Kevin Jamieson
- Abstract要約: 基礎システムの報酬と遷移確率の両方において,未知の敵的腐敗下でのエピソディック強化学習について検討した。
既存の結果と比較して、総汚職の点で厳密により良い後悔の境界を達成する新しいアルゴリズムを提案します。
その結果、汚職防止政策のメタアルゴリズムとプラグインフリーのサブアルゴリズムを組み合わせた一般的なアルゴリズムフレームワークが得られた。
- 参考スコア(独自算出の注目度): 43.279169081740726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study episodic reinforcement learning under unknown adversarial
corruptions in both the rewards and the transition probabilities of the
underlying system. We propose new algorithms which, compared to the existing
results in (Lykouris et al., 2020), achieve strictly better regret bounds in
terms of total corruptions for the tabular setting. To be specific, firstly,
our regret bounds depend on more precise numerical values of total rewards
corruptions and transition corruptions, instead of only on the total number of
corrupted episodes. Secondly, our regret bounds are the first of their kind in
the reinforcement learning setting to have the number of corruptions show up
additively with respect to $\sqrt{T}$ rather than multiplicatively. Our results
follow from a general algorithmic framework that combines corruption-robust
policy elimination meta-algorithms, and plug-in reward-free exploration
sub-algorithms. Replacing the meta-algorithm or sub-algorithm may extend the
framework to address other corrupted settings with potentially more structure.
- Abstract(参考訳): 基礎システムの報酬と遷移確率の両方において,未知の敵的腐敗下でのエピソディック強化学習について検討した。
我々は,既存の結果(lykouris et al., 2020)と比較して,表構成全体の腐敗に関して,厳密な後悔の限界を達成する新しいアルゴリズムを提案する。
具体的には、第一に、私たちの後悔の境界は、破損したエピソードの総数だけではなく、合計報酬の腐敗と移行の腐敗のより正確な数値に依存します。
第二に、私たちの後悔の境界は、重複的にではなく、$\sqrt{T}$に関して、腐敗の数を付加的に表示させる強化学習設定の最初のものです。
その結果、汚職防止政策のメタアルゴリズムとプラグインフリーのサブアルゴリズムを組み合わせた一般的なアルゴリズムフレームワークが得られた。
メタアルゴリズムやサブアルゴリズムの置き換えは、フレームワークを拡張して、潜在的により多くの構造を持つ他の破損した設定に対処する。
関連論文リスト
- Corruption-Robust Linear Bandits: Minimax Optimality and Gap-Dependent Misspecification [17.288347876319126]
線形バンディットでは、学習者が腐敗した報酬に直面するとき、効果的に学習できるのか?
汚職レベルは学習者が選択した行動に依存するが、汚職レベルは学習者が選択した行動に依存しない。
線形包帯については, 強い汚職と弱い汚職下でのミニマックス後悔のギャップを, 完全に特徴づける。
論文 参考訳(メタデータ) (2024-10-10T02:01:46Z) - Corruption-Robust Algorithms with Uncertainty Weighting for Nonlinear
Contextual Bandits and Markov Decision Processes [59.61248760134937]
本稿では,$tildeO(sqrtT+zeta)$を後悔するアルゴリズムを提案する。
提案アルゴリズムは、最近開発された線形文脈帯域からの不確実性重み付き最小二乗回帰に依存する。
本稿では,提案アルゴリズムをエピソディックなMDP設定に一般化し,まず汚職レベル$zeta$への付加的依存を実現する。
論文 参考訳(メタデータ) (2022-12-12T15:04:56Z) - Nearly Optimal Algorithms for Linear Contextual Bandits with Adversarial
Corruptions [98.75618795470524]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。
我々は不確実性に直面した楽観主義の原理に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-13T17:58:58Z) - A Robust Phased Elimination Algorithm for Corruption-Tolerant Gaussian
Process Bandits [118.22458816174144]
そこで本稿では,エポックで動作するロバストな除去型アルゴリズムを提案し,探索と頻繁な切替を併用して,小さなアクションサブセットを選択し,各アクションを複数タイミングで実行する。
我々のアルゴリズムであるGP Robust Phased Elimination (RGP-PE) は、探索とエクスプロイトによる汚職に対するロバストネスのバランスに成功している。
GPバンディット設定におけるロバスト性の最初の実証的研究を行い,アルゴリズムが様々な敵攻撃に対してロバストであることを示す。
論文 参考訳(メタデータ) (2022-02-03T21:19:36Z) - Linear Contextual Bandits with Adversarial Corruptions [91.38793800392108]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。
逆汚染レベルに適応する分散認識アルゴリズムをC$で提案する。
論文 参考訳(メタデータ) (2021-10-25T02:53:24Z) - On Optimal Robustness to Adversarial Corruption in Online Decision
Problems [27.68461396741871]
最適ロバスト性は汚損量に対する平方根依存性によって表現できることを示す。
多武装バンディット問題に対しては、対数係数までほぼ狭い下界も提供する。
論文 参考訳(メタデータ) (2021-09-22T18:26:45Z) - Corralling Stochastic Bandit Algorithms [54.10645564702416]
相関アルゴリズムの後悔は、最も報酬の高い腕を含む最高のアルゴリズムの後悔よりも悪くはないことを示す。
最高報酬と他の報酬の差は、最高報酬と他の報酬の差に依存することを示す。
論文 参考訳(メタデータ) (2020-06-16T15:33:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。