論文の概要: Towards Robust Model-Based Reinforcement Learning Against Adversarial Corruption
- arxiv url: http://arxiv.org/abs/2402.08991v3
- Date: Sat, 20 Jul 2024 15:23:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 02:40:58.522661
- Title: Towards Robust Model-Based Reinforcement Learning Against Adversarial Corruption
- Title(参考訳): 逆転破壊に対するロバストモデルに基づく強化学習に向けて
- Authors: Chenlu Ye, Jiafan He, Quanquan Gu, Tong Zhang,
- Abstract要約: 本研究は、モデルベース強化学習(RL)における敵対的腐敗の課題に取り組む。
本稿では,MLE に対する不確実性重みとして全変量 (TV) に基づく情報比を利用する,汚損楽観的 MLE (CR-OMLE) アルゴリズムを提案する。
我々は、重み付け手法をオフライン設定にまで拡張し、汚損性悲観的MLE (CR-PMLE) というアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 60.958746600254884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study tackles the challenges of adversarial corruption in model-based reinforcement learning (RL), where the transition dynamics can be corrupted by an adversary. Existing studies on corruption-robust RL mostly focus on the setting of model-free RL, where robust least-square regression is often employed for value function estimation. However, these techniques cannot be directly applied to model-based RL. In this paper, we focus on model-based RL and take the maximum likelihood estimation (MLE) approach to learn transition model. Our work encompasses both online and offline settings. In the online setting, we introduce an algorithm called corruption-robust optimistic MLE (CR-OMLE), which leverages total-variation (TV)-based information ratios as uncertainty weights for MLE. We prove that CR-OMLE achieves a regret of $\tilde{\mathcal{O}}(\sqrt{T} + C)$, where $C$ denotes the cumulative corruption level after $T$ episodes. We also prove a lower bound to show that the additive dependence on $C$ is optimal. We extend our weighting technique to the offline setting, and propose an algorithm named corruption-robust pessimistic MLE (CR-PMLE). Under a uniform coverage condition, CR-PMLE exhibits suboptimality worsened by $\mathcal{O}(C/n)$, nearly matching the lower bound. To the best of our knowledge, this is the first work on corruption-robust model-based RL algorithms with provable guarantees.
- Abstract(参考訳): 本研究では, モデルベース強化学習(RL)において, 対向的破壊の課題に対処する。
汚損RLに関する既存の研究は、主にモデルのないRLの設定に焦点を当てており、ロバストな最小二乗回帰が値関数の推定にしばしば用いられる。
しかし、これらの手法はモデルベースRLに直接適用することはできない。
本稿では,モデルに基づくRLに着目し,最大推定(MLE)アプローチを用いて遷移モデルを学習する。
私たちの作業には、オンラインとオフラインの両方の設定が含まれています。
オンライン環境では、全変量(TV)に基づく情報比をMLEの不確実量として活用する、汚損楽観的なMLE (CR-OMLE) というアルゴリズムを導入する。
CR-OMLE が $\tilde{\mathcal{O}}(\sqrt{T} + C)$ の後悔を達成したことを証明します。
また、$C$に対する加法依存が最適であることを示す境界も低く証明する。
我々は、重み付け手法をオフライン設定に拡張し、汚損性悲観的MLE (CR-PMLE) というアルゴリズムを提案する。
均一なカバレッジ条件下では、CR-PMLEは$\mathcal{O}(C/n)$によって悪化し、下界とほぼ一致する。
我々の知る限りでは、確証のあるモデルに基づくRLアルゴリズムに関する最初の研究である。
関連論文リスト
- Robust Reinforcement Learning from Corrupted Human Feedback [86.17030012828003]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の嗜好データを調整するための原則化されたフレームワークを提供する。
我々はRLHFのロバストなアプローチ-$R3M$を提案し、これは、潜在的に破損した選好ラベルをスパースアウトリーとしてモデル化する。
大規模言語モデル(LLM)を用いたロボット制御と自然言語生成の実験により、R3M$は、好みデータに対する様々な摂動に対する報酬の堅牢性を向上することを示した。
論文 参考訳(メタデータ) (2024-06-21T18:06:30Z) - Corruption Robust Offline Reinforcement Learning with Human Feedback [33.33154679893122]
オフライン環境下でのRLHFを用いた強化学習におけるデータ破損の堅牢性について検討した。
我々は,破損したデータから準最適ポリシーを特定するアルゴリズムを,証明可能な保証を持って設計することを目指している。
論文 参考訳(メタデータ) (2024-02-09T19:09:48Z) - MICRO: Model-Based Offline Reinforcement Learning with a Conservative Bellman Operator [13.140242573639629]
オフライン強化学習(RL)は、分散シフトの大きな課題に直面している。
モデルフリーオフラインRLは、アウト・オブ・ディストリビューション(OOD)データに対するQ値のペナルティ化や、この問題を解決するために行動ポリシーに閉じたポリシーの制約を行う。
本稿では,保守的ベルマン演算子(MICRO)を用いた新しいモデルベースオフラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-07T02:17:45Z) - Corruption-Robust Offline Reinforcement Learning with General Function
Approximation [60.91257031278004]
一般関数近似を用いたオフライン強化学習(RL)における劣化問題について検討する。
我々のゴールは、崩壊しないマルコフ決定プロセス(MDP)の最適方針に関して、このような腐敗に対して堅牢で、最適でないギャップを最小限に抑える政策を見つけることである。
論文 参考訳(メタデータ) (2023-10-23T04:07:26Z) - Double Pessimism is Provably Efficient for Distributionally Robust
Offline Reinforcement Learning: Generic Algorithm and Robust Partial Coverage [15.858892479232656]
頑健なオフライン強化学習(ロバストオフラインRL)について検討する。
我々は、Douubly Pessimistic Model-based Policy Optimization(P2MPO$)と呼ばれる汎用アルゴリズムフレームワークを提案する。
P2MPO$は$tildemathcalO(n-1/2)$コンバーゼンスレートで、$n$はデータセットサイズである。
論文 参考訳(メタデータ) (2023-05-16T17:58:05Z) - Principled Reinforcement Learning with Human Feedback from Pairwise or
$K$-wise Comparisons [79.98542868281473]
RLHF(Reinforcement Learning with Human Feedback)の理論的枠組みを提供する。
学習した報酬モデルに基づいてポリシーをトレーニングする際、MLEは失敗し、悲観的なMLEは特定のカバレッジ仮定の下で性能を改善したポリシーを提供する。
論文 参考訳(メタデータ) (2023-01-26T18:07:21Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Towards Tractable Optimism in Model-Based Reinforcement Learning [37.51073590932658]
成功させるためには、楽観的なRLアルゴリズムは真の値関数(最適化)を過大に見積もる必要があるが、不正確な(推定誤差)ほどではない。
我々は,これらのスケーラブルな楽観的モデルベースアルゴリズムを,トラクタブルノイズ拡張MDPの解法として再解釈する。
この誤差が低減された場合、楽観的なモデルベースRLアルゴリズムは、連続制御問題における最先端性能と一致することを示す。
論文 参考訳(メタデータ) (2020-06-21T20:53:19Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。