論文の概要: On Practical Robust Reinforcement Learning: Practical Uncertainty Set
and Double-Agent Algorithm
- arxiv url: http://arxiv.org/abs/2305.06657v2
- Date: Sun, 14 May 2023 10:14:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 11:18:19.619978
- Title: On Practical Robust Reinforcement Learning: Practical Uncertainty Set
and Double-Agent Algorithm
- Title(参考訳): 実践的ロバスト強化学習について:実用的不確実性セットとダブルエージェントアルゴリズム
- Authors: Ukjo Hwang, Songnam Hong
- Abstract要約: モデル不確実性を伴う頑健な強化学習(RL)について検討する。
本稿では,既存のものよりも現実的なMDPを含む新しい不確実性セットを提案する。
我々のアルゴリズムはQ-Learningと最先端の頑健なQ-Learningに匹敵する速さで収束することを示す。
- 参考スコア(独自算出の注目度): 8.985261743452988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a robust reinforcement learning (RL) with model uncertainty. Given
nominal Markov decision process (N-MDP) that generate samples for training, an
uncertainty set is defined, which contains some perturbed MDPs from N-MDP for
the purpose of reflecting potential mismatched between training (i.e., N-MDP)
and testing environments. The objective of robust RL is to learn a robust
policy that optimizes the worst-case performance over an uncertainty set. In
this paper, we propose a new uncertainty set containing more realistic MDPs
than the existing ones. For this uncertainty set, we present a robust RL
algorithm (named ARQ-Learning) for tabular case and characterize its
finite-time error bound. Also, it is proved that ARQ-Learning converges as fast
as Q-Learning and the state-of-the-art robust Q-Learning while ensuring better
robustness to real-world applications. Next, we propose {\em pessimistic} agent
that efficiently tackles the key bottleneck for the extension of ARQ-Learning
into the case with larger or continuous state spaces. Incorporating the idea of
pessimistic agents into the famous RL algorithms such as Q-Learning, deep-Q
network (DQN), and deep deterministic policy gradient (DDPG), we present
PRQ-Learning, PR-DQN, and PR-DDPG, respectively. Noticeably, the proposed idea
can be immediately applied to other model-free RL algorithms (e.g., soft actor
critic). Via experiments, we demonstrate the superiority of our algorithms on
various RL applications with model uncertainty.
- Abstract(参考訳): モデル不確実性を伴う頑健な強化学習(RL)について検討する。
トレーニングのためのサンプルを生成する名目上のマルコフ決定プロセス(N-MDP)が与えられた場合、トレーニング(N-MDP)とテスト環境の間の潜在的なミスマッチを反映するために、N-MDPから摂動されたMDPを含む不確実性セットが定義される。
堅牢なRLの目的は、不確実性セットに対する最悪のパフォーマンスを最適化する堅牢なポリシーを学ぶことである。
本稿では,既存のものよりも現実的なMDPを含む新しい不確実性セットを提案する。
この不確実性集合に対して,表ケースに対する頑健なrlアルゴリズム(arq-learning)を示し,その有限時間誤差境界を特徴付ける。
また、ARQ-LearningはQ-Learningや最先端の堅牢なQ-Learningと同等の速度で収束し、実世界のアプリケーションにより良いロバスト性を確保することが証明された。
次に,大規模あるいは連続的な状態空間を持つ場合において,ARQ学習の拡張の鍵となるボトルネックを効果的に解決する「悲観的」エージェントを提案する。
Q-Learning, Deep-Q Network (DQN), Deep Deterministic Policy gradient (DDPG) などの有名なRLアルゴリズムに悲観的エージェントのアイデアを取り入れ, PRQ-Learning, PR-DQN, PR-DDPGを提案する。
特に、提案されたアイデアは、他のモデルなしRLアルゴリズム(ソフトアクター批評家など)に即座に適用することができる。
実験により、モデル不確実性のあるRLアプリケーションにおけるアルゴリズムの優位性を示す。
関連論文リスト
- Q-learning for Quantile MDPs: A Decomposition, Performance, and Convergence Analysis [30.713243690224207]
マルコフ決定過程(MDPs)において、バリュー・アット・リスク(Value-at-Risk)のような量子リスク尺度は、特定の結果に対するRLエージェントの嗜好をモデル化するための標準指標である。
本稿では,強い収束と性能保証を有するMDPにおける量子化最適化のための新しいQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-31T16:53:20Z) - Burning RED: Unlocking Subtask-Driven Reinforcement Learning and Risk-Awareness in Average-Reward Markov Decision Processes [7.028778922533688]
平均回帰マルコフ決定プロセス(MDPs)は、不確実性の下でのシーケンシャルな意思決定の基盤となる枠組みを提供する。
平均再帰型MDPのユニークな構造特性を考察し,これを用いてReward-Extended Differential (RED) 強化学習を導入する。
論文 参考訳(メタデータ) (2024-10-14T14:52:23Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Non-stationary Reinforcement Learning under General Function
Approximation [60.430936031067006]
まず,非定常MDPに対する動的ベルマンエルダー次元(DBE)と呼ばれる新しい複雑性指標を提案する。
提案する複雑性指標に基づいて,SW-OPEAと呼ばれる新しい信頼度セットに基づくモデルフリーアルゴリズムを提案する。
SW-OPEAは,変動予算がそれほど大きくない限り,有効に有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T16:19:37Z) - The Curious Price of Distributional Robustness in Reinforcement Learning with a Generative Model [61.87673435273466]
本稿では,強化学習(RL)におけるモデルロバスト性を検討した。
我々は,デプロイ環境が,名目MDPに規定された不確実性に陥る場合に,最悪の場合のパフォーマンスを最適化する政策を学習することを目的とした,分布的に堅牢なマルコフ決定プロセス(RMDP)の枠組みを採用する。
論文 参考訳(メタデータ) (2023-05-26T02:32:03Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Online Robust Reinforcement Learning with Model Uncertainty [24.892994430374912]
未知の不確実性集合を推定し、堅牢なQ-ラーニングと堅牢なTDCアルゴリズムを設計するためのサンプルベースアプローチを開発する。
頑健なQ-ラーニングアルゴリズムでは、最適なロバストなQ関数に収束することが証明され、ロバストなTDCアルゴリズムでは、いくつかの定常点に収束することが証明される。
我々のアプローチは、TD、SARSA、その他のGTDアルゴリズムなど、他の多くのアルゴリズムを堅牢化するために容易に拡張できる。
論文 参考訳(メタデータ) (2021-09-29T16:17:47Z) - Revisiting State Augmentation methods for Reinforcement Learning with
Stochastic Delays [10.484851004093919]
本稿では,遅延を伴うマルコフ決定過程(MDP)の概念を正式に述べる。
遅延MDPは、コスト構造が大幅に単純化された(遅延なしで)等価な標準MDPに変換可能であることを示す。
この等価性を利用して、モデルフリーな遅延分解RLフレームワークを導出し、このフレームワーク上に構築された単純なRLアルゴリズムでさえ、動作や観測の遅延を伴う環境におけるほぼ最適報酬を達成することを示す。
論文 参考訳(メタデータ) (2021-08-17T10:45:55Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。