Fugu-MT 論文翻訳(概要): Improved Corruption Robust Algorithms for Episodic Reinforcement Learning

論文の概要: Improved Corruption Robust Algorithms for Episodic Reinforcement Learning

arxiv url: http://arxiv.org/abs/2102.06875v1
Date: Sat, 13 Feb 2021 07:04:23 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-16 16:10:45.166638
Title: Improved Corruption Robust Algorithms for Episodic Reinforcement Learning
Title（参考訳）: 韻律強化学習のための破損ロバストアルゴリズムの改良
Authors: Yifang Chen, Simon S. Du, Kevin Jamieson
Abstract要約: 基礎システムの報酬と遷移確率の両方において,未知の敵的腐敗下でのエピソディック強化学習について検討した。既存の結果と比較して、総汚職の点で厳密により良い後悔の境界を達成する新しいアルゴリズムを提案します。その結果、汚職防止政策のメタアルゴリズムとプラグインフリーのサブアルゴリズムを組み合わせた一般的なアルゴリズムフレームワークが得られた。
参考スコア（独自算出の注目度）: 43.279169081740726
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study episodic reinforcement learning under unknown adversarial corruptions in both the rewards and the transition probabilities of the underlying system. We propose new algorithms which, compared to the existing results in (Lykouris et al., 2020), achieve strictly better regret bounds in terms of total corruptions for the tabular setting. To be specific, firstly, our regret bounds depend on more precise numerical values of total rewards corruptions and transition corruptions, instead of only on the total number of corrupted episodes. Secondly, our regret bounds are the first of their kind in the reinforcement learning setting to have the number of corruptions show up additively with respect to $\sqrt{T}$ rather than multiplicatively. Our results follow from a general algorithmic framework that combines corruption-robust policy elimination meta-algorithms, and plug-in reward-free exploration sub-algorithms. Replacing the meta-algorithm or sub-algorithm may extend the framework to address other corrupted settings with potentially more structure.
Abstract（参考訳）: 基礎システムの報酬と遷移確率の両方において,未知の敵的腐敗下でのエピソディック強化学習について検討した。我々は,既存の結果(lykouris et al., 2020)と比較して,表構成全体の腐敗に関して,厳密な後悔の限界を達成する新しいアルゴリズムを提案する。具体的には、第一に、私たちの後悔の境界は、破損したエピソードの総数だけではなく、合計報酬の腐敗と移行の腐敗のより正確な数値に依存します。第二に、私たちの後悔の境界は、重複的にではなく、$\sqrt{T}$に関して、腐敗の数を付加的に表示させる強化学習設定の最初のものです。その結果、汚職防止政策のメタアルゴリズムとプラグインフリーのサブアルゴリズムを組み合わせた一般的なアルゴリズムフレームワークが得られた。メタアルゴリズムやサブアルゴリズムの置き換えは、フレームワークを拡張して、潜在的により多くの構造を持つ他の破損した設定に対処する。

関連論文リスト

Corruption-Robust Linear Bandits: Minimax Optimality and Gap-Dependent Misspecification [17.288347876319126]
線形バンディットでは、学習者が腐敗した報酬に直面するとき、効果的に学習できるのか? 汚職レベルは学習者が選択した行動に依存するが、汚職レベルは学習者が選択した行動に依存しない。線形包帯については, 強い汚職と弱い汚職下でのミニマックス後悔のギャップを, 完全に特徴づける。
論文参考訳（メタデータ） (2024-10-10T02:01:46Z)
Corruption-Robust Algorithms with Uncertainty Weighting for Nonlinear Contextual Bandits and Markov Decision Processes [59.61248760134937]
本稿では,$tildeO(sqrtT+zeta)$を後悔するアルゴリズムを提案する。提案アルゴリズムは、最近開発された線形文脈帯域からの不確実性重み付き最小二乗回帰に依存する。本稿では,提案アルゴリズムをエピソディックなMDP設定に一般化し,まず汚職レベル$zeta$への付加的依存を実現する。
論文参考訳（メタデータ） (2022-12-12T15:04:56Z)
Nearly Optimal Algorithms for Linear Contextual Bandits with Adversarial Corruptions [98.75618795470524]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。我々は不確実性に直面した楽観主義の原理に基づく新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-05-13T17:58:58Z)
A Robust Phased Elimination Algorithm for Corruption-Tolerant Gaussian Process Bandits [118.22458816174144]
そこで本稿では,エポックで動作するロバストな除去型アルゴリズムを提案し,探索と頻繁な切替を併用して,小さなアクションサブセットを選択し,各アクションを複数タイミングで実行する。我々のアルゴリズムであるGP Robust Phased Elimination (RGP-PE) は、探索とエクスプロイトによる汚職に対するロバストネスのバランスに成功している。 GPバンディット設定におけるロバスト性の最初の実証的研究を行い,アルゴリズムが様々な敵攻撃に対してロバストであることを示す。
論文参考訳（メタデータ） (2022-02-03T21:19:36Z)
Linear Contextual Bandits with Adversarial Corruptions [91.38793800392108]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。逆汚染レベルに適応する分散認識アルゴリズムをC$で提案する。
論文参考訳（メタデータ） (2021-10-25T02:53:24Z)
On Optimal Robustness to Adversarial Corruption in Online Decision Problems [27.68461396741871]
最適ロバスト性は汚損量に対する平方根依存性によって表現できることを示す。多武装バンディット問題に対しては、対数係数までほぼ狭い下界も提供する。
論文参考訳（メタデータ） (2021-09-22T18:26:45Z)
Corralling Stochastic Bandit Algorithms [54.10645564702416]
相関アルゴリズムの後悔は、最も報酬の高い腕を含む最高のアルゴリズムの後悔よりも悪くはないことを示す。最高報酬と他の報酬の差は、最高報酬と他の報酬の差に依存することを示す。
論文参考訳（メタデータ） (2020-06-16T15:33:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。