論文の概要: On practical robust reinforcement learning: adjacent uncertainty set and
double-agent algorithm
- arxiv url: http://arxiv.org/abs/2305.06657v1
- Date: Thu, 11 May 2023 08:52:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 15:30:31.506933
- Title: On practical robust reinforcement learning: adjacent uncertainty set and
double-agent algorithm
- Title(参考訳): 実用的な頑健な強化学習:隣接不確実性集合と二重エージェントアルゴリズム
- Authors: Ukjo Hwang, Songnam Hong
- Abstract要約: 我々は,既存のセットよりも現実的なMDPを含む新たな不確実性セットを導入する。
グラフケースに対してARQ-Learningという頑健なRLを提案する。
また、有限時間誤差境界を特徴づけ、Q-LearningやロバストQ-Learningと同じくらい早く収束することが証明される。
- 参考スコア(独自算出の注目度): 8.985261743452988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust reinforcement learning (RL) aims at learning a policy that optimizes
the worst-case performance over an uncertainty set. Given nominal Markov
decision process (N-MDP) that generates samples for training, the set contains
MDPs obtained by some perturbations from N-MDP. In this paper, we introduce a
new uncertainty set containing more realistic MDPs in practice than the
existing sets. Using this uncertainty set, we present a robust RL, named
ARQ-Learning, for tabular cases. Also, we characterize the finite-time error
bounds and prove that it converges as fast as Q-Learning and robust Q-Learning
(i.e., the state-of-the-art robust RL method) while providing better robustness
for real applications. We propose {\em pessimistic agent} that efficiently
tackles the key bottleneck for the extension of ARQ-Learning into large or
continuous state spaces. Using this technique, we first propose PRQ-Learning.
To the next, combining this with DQN and DDPG, we develop PR-DQN and PR-DDPG,
respectively. We emphasize that our technique can be easily combined with the
other popular model-free methods. Via experiments, we demonstrate the
superiority of the proposed methods in various RL applications with model
uncertainties.
- Abstract(参考訳): robust reinforcement learning(rl)は、不確実性セットよりも最悪の場合のパフォーマンスを最適化するポリシの学習を目的とする。
トレーニング用のサンプルを生成する名目マルコフ決定プロセス(N-MDP)が与えられたセットには、N-MDPからの摂動によって得られるMDPが含まれている。
本稿では,既存のセットよりも現実的なMDPを含む新たな不確実性セットを提案する。
この不確実性集合を用いて、表ケースに対してARQ-Learningという頑健なRLを示す。
また、有限時間誤差境界を特徴づけ、Q-LearningとロバストなQ-Learning(すなわち最先端のロバストなRL法)と同じくらいの速さで収束することを証明する。
本稿では,ARQ学習を大規模あるいは連続的な状態空間に拡張する上で重要なボトルネックを効果的に解決する「悲観的エージェント」を提案する。
この手法を用いて,まずPRQ学習を提案する。
次に、これをDQNとDDPGと組み合わせて、PR-DQNとDDPGをそれぞれ開発する。
我々は,この手法が他の一般的なモデルフリー手法と簡単に組み合わせられることを強調した。
実験により,モデル不確実性のあるRLアプリケーションにおいて提案手法の優位性を示す。
関連論文リスト
- Q-learning for Quantile MDPs: A Decomposition, Performance, and Convergence Analysis [30.713243690224207]
マルコフ決定過程(MDPs)において、バリュー・アット・リスク(Value-at-Risk)のような量子リスク尺度は、特定の結果に対するRLエージェントの嗜好をモデル化するための標準指標である。
本稿では,強い収束と性能保証を有するMDPにおける量子化最適化のための新しいQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-31T16:53:20Z) - Burning RED: Unlocking Subtask-Driven Reinforcement Learning and Risk-Awareness in Average-Reward Markov Decision Processes [7.028778922533688]
平均回帰マルコフ決定プロセス(MDPs)は、不確実性の下でのシーケンシャルな意思決定の基盤となる枠組みを提供する。
平均再帰型MDPのユニークな構造特性を考察し,これを用いてReward-Extended Differential (RED) 強化学習を導入する。
論文 参考訳(メタデータ) (2024-10-14T14:52:23Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Non-stationary Reinforcement Learning under General Function
Approximation [60.430936031067006]
まず,非定常MDPに対する動的ベルマンエルダー次元(DBE)と呼ばれる新しい複雑性指標を提案する。
提案する複雑性指標に基づいて,SW-OPEAと呼ばれる新しい信頼度セットに基づくモデルフリーアルゴリズムを提案する。
SW-OPEAは,変動予算がそれほど大きくない限り,有効に有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T16:19:37Z) - The Curious Price of Distributional Robustness in Reinforcement Learning with a Generative Model [61.87673435273466]
本稿では,強化学習(RL)におけるモデルロバスト性を検討した。
我々は,デプロイ環境が,名目MDPに規定された不確実性に陥る場合に,最悪の場合のパフォーマンスを最適化する政策を学習することを目的とした,分布的に堅牢なマルコフ決定プロセス(RMDP)の枠組みを採用する。
論文 参考訳(メタデータ) (2023-05-26T02:32:03Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Online Robust Reinforcement Learning with Model Uncertainty [24.892994430374912]
未知の不確実性集合を推定し、堅牢なQ-ラーニングと堅牢なTDCアルゴリズムを設計するためのサンプルベースアプローチを開発する。
頑健なQ-ラーニングアルゴリズムでは、最適なロバストなQ関数に収束することが証明され、ロバストなTDCアルゴリズムでは、いくつかの定常点に収束することが証明される。
我々のアプローチは、TD、SARSA、その他のGTDアルゴリズムなど、他の多くのアルゴリズムを堅牢化するために容易に拡張できる。
論文 参考訳(メタデータ) (2021-09-29T16:17:47Z) - Revisiting State Augmentation methods for Reinforcement Learning with
Stochastic Delays [10.484851004093919]
本稿では,遅延を伴うマルコフ決定過程(MDP)の概念を正式に述べる。
遅延MDPは、コスト構造が大幅に単純化された(遅延なしで)等価な標準MDPに変換可能であることを示す。
この等価性を利用して、モデルフリーな遅延分解RLフレームワークを導出し、このフレームワーク上に構築された単純なRLアルゴリズムでさえ、動作や観測の遅延を伴う環境におけるほぼ最適報酬を達成することを示す。
論文 参考訳(メタデータ) (2021-08-17T10:45:55Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。