論文の概要: Robust Policy Gradient against Strong Data Corruption
- arxiv url: http://arxiv.org/abs/2102.05800v1
- Date: Thu, 11 Feb 2021 01:48:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-12 20:57:44.324772
- Title: Robust Policy Gradient against Strong Data Corruption
- Title(参考訳): 強固なデータ破損に対するロバストな政策勾配
- Authors: Xuezhou Zhang, Yiding Chen, Xiaojin Zhu and Wen Sun
- Abstract要約: 対人汚職下での堅牢な強化学習の課題を報酬と移行の両面から検討する。
攻撃モデルでは、エピソード内の各ステップで報酬と移行を任意に破壊できるテクティタダプティブな敵を仮定する。
我々はフィルタポリシグラディエントアルゴリズムを開発し、汚職に対する報酬を許容し、$O(epsilon1/4)$-optimal Policy を見つけることができる。
- 参考スコア(独自算出の注目度): 30.910088777897045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of robust reinforcement learning under adversarial
corruption on both rewards and transitions. Our attack model assumes an
\textit{adaptive} adversary who can arbitrarily corrupt the reward and
transition at every step within an episode, for at most $\epsilon$-fraction of
the learning episodes. Our attack model is strictly stronger than those
considered in prior works. Our first result shows that no algorithm can find a
better than $O(\epsilon)$-optimal policy under our attack model. Next, we show
that surprisingly the natural policy gradient (NPG) method retains a natural
robustness property if the reward corruption is bounded, and can find an
$O(\sqrt{\epsilon})$-optimal policy. Consequently, we develop a Filtered Policy
Gradient (FPG) algorithm that can tolerate even unbounded reward corruption and
can find an $O(\epsilon^{1/4})$-optimal policy. We emphasize that FPG is the
first that can achieve a meaningful learning guarantee when a constant fraction
of episodes are corrupted. Complimentary to the theoretical results, we show
that a neural implementation of FPG achieves strong robust learning performance
on the MuJoCo continuous control benchmarks.
- Abstract(参考訳): 対人汚職下での堅牢な強化学習の課題を報酬と移行の両面から検討する。
攻撃モデルは、学習エピソードの最大$\epsilon$-fractionに対して、エピソード内の各ステップにおける報酬とトランジションを任意に破壊できる \textit{adaptive} 敵を想定しています。
私達の攻撃モデルは前作で考慮されるものより厳しく強いです。
最初の結果は、攻撃モデルの下では、$O(\epsilon)$-optimal Policyよりも優れたアルゴリズムが見つからないことを示している。
次に、驚くべきことに自然政策勾配(NPG)法は、報酬の腐敗が境界づけられている場合に自然堅牢性特性を保持し、$O(\sqrt{\epsilon})$-optimal Policyを見つけることができることを示した。
その結果、無限の報酬の腐敗を許容し、$O(\epsilon^{1/4})$-optimal Policyを見つけることができるフィルタポリシーグラデーション(FPG)アルゴリズムを開発しました。
FPGは、一定のエピソードが破損した場合に有意義な学習保証を達成できる最初のものであることを強調します。
理論的結果と相まって,FPGのニューラル実装は,MuJoCo連続制御ベンチマーク上で強靭な学習性能を実現することを示す。
関連論文リスト
- Uncertainty-Aware Reward-Free Exploration with General Function Approximation [69.27868448449755]
本稿では、algと呼ばれる報酬のない強化学習アルゴリズムを提案する。
私たちのアルゴリズムの背後にある重要なアイデアは、環境を探索する上で不確実性を認識した本質的な報酬である。
実験の結果、GFA-RFEは最先端の教師なしRLアルゴリズムよりも優れ、あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2024-06-24T01:37:18Z) - Convergence of a model-free entropy-regularized inverse reinforcement learning algorithm [6.481009996429766]
逆強化学習(IRL)は、専門家が最適である報酬を回復することを目的としている。
本研究では,エントロピー規則化IRL問題を解くためのモデルフリーアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-25T14:54:42Z) - Corruption-Robust Offline Reinforcement Learning with General Function
Approximation [60.91257031278004]
一般関数近似を用いたオフライン強化学習(RL)における劣化問題について検討する。
我々のゴールは、崩壊しないマルコフ決定プロセス(MDP)の最適方針に関して、このような腐敗に対して堅牢で、最適でないギャップを最小限に抑える政策を見つけることである。
論文 参考訳(メタデータ) (2023-10-23T04:07:26Z) - Best of Both Worlds Policy Optimization [33.13041034490332]
本稿では,正則化器,探索ボーナス,学習率を適切に設計することにより,損失が相反する場合には,より好意的なポリログ$(T)=後悔が得られることを示す。
政策最適化のために、ギャップ依存のポリログ$(T)$後悔境界が示されるのはこれが初めてである。
論文 参考訳(メタデータ) (2023-02-18T19:46:11Z) - Corruption-Robust Algorithms with Uncertainty Weighting for Nonlinear
Contextual Bandits and Markov Decision Processes [59.61248760134937]
本稿では,$tildeO(sqrtT+zeta)$を後悔するアルゴリズムを提案する。
提案アルゴリズムは、最近開発された線形文脈帯域からの不確実性重み付き最小二乗回帰に依存する。
本稿では,提案アルゴリズムをエピソディックなMDP設定に一般化し,まず汚職レベル$zeta$への付加的依存を実現する。
論文 参考訳(メタデータ) (2022-12-12T15:04:56Z) - A Robust Phased Elimination Algorithm for Corruption-Tolerant Gaussian
Process Bandits [118.22458816174144]
そこで本稿では,エポックで動作するロバストな除去型アルゴリズムを提案し,探索と頻繁な切替を併用して,小さなアクションサブセットを選択し,各アクションを複数タイミングで実行する。
我々のアルゴリズムであるGP Robust Phased Elimination (RGP-PE) は、探索とエクスプロイトによる汚職に対するロバストネスのバランスに成功している。
GPバンディット設定におけるロバスト性の最初の実証的研究を行い,アルゴリズムが様々な敵攻撃に対してロバストであることを示す。
論文 参考訳(メタデータ) (2022-02-03T21:19:36Z) - Linear Contextual Bandits with Adversarial Corruptions [91.38793800392108]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。
逆汚染レベルに適応する分散認識アルゴリズムをC$で提案する。
論文 参考訳(メタデータ) (2021-10-25T02:53:24Z) - Corruption-Robust Offline Reinforcement Learning [19.300465320692066]
オフライン強化学習における対向的堅牢性について検討する。
最悪な$Omega(デプシロン)最適性ギャップは避けられないことを示す。
本稿では,Last-Square Value Iteration (LSVI)アルゴリズムのロバストな変種を提案する。
論文 参考訳(メタデータ) (2021-06-11T22:41:53Z) - Adaptive Reward-Free Exploration [48.98199700043158]
提案アルゴリズムは1994年からのFiechterのアルゴリズムの変種と見なすことができる。
さらに、報酬のない探索と最高の政治識別の相対的な複雑さについて検討する。
論文 参考訳(メタデータ) (2020-06-11T09:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。