論文の概要: Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2103.10369v1
- Date: Thu, 18 Mar 2021 16:50:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-19 19:14:43.807677
- Title: Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning
- Title(参考訳): モデルベース深層強化学習におけるペシミズムと最適化の併用
- Authors: Sebastian Curi, Ilija Bogunovic, Andreas Krause
- Abstract要約: 実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 56.17667147101263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In real-world tasks, reinforcement learning (RL) agents frequently encounter
situations that are not present during training time. To ensure reliable
performance, the RL agents need to exhibit robustness against worst-case
situations. The robust RL framework addresses this challenge via a worst-case
optimization between an agent and an adversary. Previous robust RL algorithms
are either sample inefficient, lack robustness guarantees, or do not scale to
large problems. We propose the Robust Hallucinated Upper-Confidence RL
(RH-UCRL) algorithm to provably solve this problem while attaining near-optimal
sample complexity guarantees. RH-UCRL is a model-based reinforcement learning
(MBRL) algorithm that effectively distinguishes between epistemic and aleatoric
uncertainty and efficiently explores both the agent and adversary decision
spaces during policy learning. We scale RH-UCRL to complex tasks via neural
networks ensemble models as well as neural network policies. Experimentally, we
demonstrate that RH-UCRL outperforms other robust deep RL algorithms in a
variety of adversarial environments.
- Abstract(参考訳): 実世界のタスクでは、強化学習(RL)エージェントはトレーニング中に存在しない状況に頻繁に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
堅牢なRLフレームワークは、エージェントと敵の間の最悪の最適化を通じて、この問題に対処する。
従来のロバストなRLアルゴリズムは、サンプリング非効率、堅牢性保証の欠如、あるいは大きな問題にスケールしない。
本稿では,RH-UCRL(Robust Hallucinated Upper-Confidence RL)アルゴリズムを提案する。
RH-UCRL はモデルベース強化学習 (MBRL) アルゴリズムであり、表皮症と失語症を効果的に区別し、政策学習中にエージェントと敵対的決定空間の両方を効率的に探索する。
rh-ucrlをニューラルネットワークのアンサンブルモデルとニューラルネットワークポリシを通じて複雑なタスクにスケールする。
実験により,rh-ucrlは他の強固な深層rlアルゴリズムに勝ることを示した。
関連論文リスト
- Zero-Sum Positional Differential Games as a Framework for Robust Reinforcement Learning: Deep Q-Learning Approach [2.3020018305241337]
本稿では、位置微分ゲーム理論におけるRRL問題を考慮した最初の提案である。
すなわち、イザックの条件の下では、同じQ-函数をミニマックス方程式とマクシミン・ベルマン方程式の近似解として利用することができる。
本稿ではIssas Deep Q-Networkアルゴリズムについて,他のベースラインRRLやMulti-Agent RLアルゴリズムと比較して,その優位性を示す。
論文 参考訳(メタデータ) (2024-05-03T12:21:43Z) - Hybrid Inverse Reinforcement Learning [34.793570631021005]
逆強化学習による模倣学習は 両刃剣である。
我々は、不要な探索を抑えるために、ハイブリッドRL(オンラインデータとエキスパートデータの混合に関するトレーニング)の使用を提案する。
モデルフリーとモデルベースハイブリッド逆RLアルゴリズムの両方を導出し、強力なポリシー性能を保証する。
論文 参考訳(メタデータ) (2024-02-13T23:29:09Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - Efficient Adversarial Training without Attacking: Worst-Case-Aware
Robust Reinforcement Learning [14.702446153750497]
Worst-case-aware Robust RL (WocaR-RL) は、深層強化学習のための堅牢なトレーニングフレームワークである。
我々は,WocaR-RLが様々な攻撃により最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2022-10-12T05:24:46Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Robust Reinforcement Learning using Offline Data [23.260211453437055]
我々はロバストフィットQ-Iteration (RFQI) と呼ばれる頑健な強化学習アルゴリズムを提案する。
RFQIは、最適なロバストポリシを学ぶために、オフラインデータセットのみを使用する。
我々は、RFQIが標準仮定の下でほぼ最適のロバストポリシーを学習していることを証明する。
論文 参考訳(メタデータ) (2022-08-10T03:47:45Z) - Robust Reinforcement Learning as a Stackelberg Game via
Adaptively-Regularized Adversarial Training [43.97565851415018]
ロバスト強化学習(RL)は、モデルエラーや敵攻撃によるパフォーマンス向上に重点を置いている。
既存の文献の多くは、解の概念としてナッシュ平衡を伴うゼロサム同時ゲームとして RARL をモデル化している。
RRL-Stackと呼ばれる一般のStackelbergゲームモデルである、ロバストなRLの階層的な新しい定式化を導入する。
論文 参考訳(メタデータ) (2022-02-19T03:44:05Z) - Semantic-Aware Collaborative Deep Reinforcement Learning Over Wireless
Cellular Networks [82.02891936174221]
複数のエージェントが無線ネットワーク上で協調できるコラボレーティブディープ強化学習(CDRL)アルゴリズムは有望なアプローチである。
本稿では,リソース制約のある無線セルネットワーク上で,意味的にリンクされたDRLタスクを持つ未学習エージェントのグループを効率的に協調させる,新しい意味認識型CDRL手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:24:47Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。