論文の概要: Sample Complexity of Robust Reinforcement Learning with a Generative
Model
- arxiv url: http://arxiv.org/abs/2112.01506v2
- Date: Fri, 3 Dec 2021 03:43:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-06 13:27:17.451054
- Title: Sample Complexity of Robust Reinforcement Learning with a Generative
Model
- Title(参考訳): 生成モデルを用いたロバスト強化学習のサンプル複雑性
- Authors: Kishan Panaganti and Dileep Kalathil
- Abstract要約: 本稿では,モデルに基づく強化学習(RL)アルゴリズムを提案する。
我々は,全変動距離,カイ二乗発散,KL発散の3種類の不確実性集合を考察した。
この結果に加えて,ロバストポリシの利点に関する公式な分析的議論も提示する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The Robust Markov Decision Process (RMDP) framework focuses on designing
control policies that are robust against the parameter uncertainties due to the
mismatches between the simulator model and real-world settings. An RMDP problem
is typically formulated as a max-min problem, where the objective is to find
the policy that maximizes the value function for the worst possible model that
lies in an uncertainty set around a nominal model. The standard robust dynamic
programming approach requires the knowledge of the nominal model for computing
the optimal robust policy. In this work, we propose a model-based reinforcement
learning (RL) algorithm for learning an $\epsilon$-optimal robust policy when
the nominal model is unknown. We consider three different forms of uncertainty
sets, characterized by the total variation distance, chi-square divergence, and
KL divergence. For each of these uncertainty sets, we give a precise
characterization of the sample complexity of our proposed algorithm. In
addition to the sample complexity results, we also present a formal analytical
argument on the benefit of using robust policies. Finally, we demonstrate the
performance of our algorithm on two benchmark problems.
- Abstract(参考訳): Robust Markov Decision Process (RMDP)フレームワークは、シミュレータモデルと現実世界の設定のミスマッチによるパラメータの不確実性に対して堅牢な制御ポリシーの設計に焦点を当てている。
RMDP問題は通常、最大ミン問題として定式化され、その目的は、名目モデルの周りにある不確実性にある最悪のモデルに対する値関数を最大化するポリシーを見つけることである。
標準ロバストな動的プログラミングアプローチは、最適ロバストポリシーを計算するために名目モデルに関する知識を必要とする。
本研究では,モデルに基づく強化学習(RL)アルゴリズムを提案し,その名目モデルが不明な場合に,$\epsilon$-optimal robust policyを学習する。
我々は3つの異なる不確実性集合を考察し, 全変動距離, チ平方発散, kl発散を特徴とする。
これらの不確実性集合のそれぞれに対して、提案アルゴリズムのサンプルの複雑さを正確に評価する。
サンプルの複雑さの結果に加えて、ロバストなポリシーを使うことの利点に関する形式的な分析的な議論も提示する。
最後に,2つのベンチマーク問題に対するアルゴリズムの性能を示す。
関連論文リスト
- Correct-by-Construction Control for Stochastic and Uncertain Dynamical
Models via Formal Abstractions [44.99833362998488]
我々は、様々なモデリングの前提の下でこの問題を解決するために使用できる抽象フレームワークを開発する。
我々は、与えられた仕様を満たすための保証とともに、iMDPの最適ポリシーを計算するために最先端の検証技術を使用します。
そして、このポリシーを構築によって、これらの保証が動的モデルに受け継がれるフィードバックコントローラに改良できることを示します。
論文 参考訳(メタデータ) (2023-11-16T11:03:54Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - The Curious Price of Distributional Robustness in Reinforcement Learning with a Generative Model [61.87673435273466]
本稿では,強化学習(RL)におけるモデルロバスト性を検討した。
我々は,デプロイ環境が,名目MDPに規定された不確実性に陥る場合に,最悪の場合のパフォーマンスを最適化する政策を学習することを目的とした,分布的に堅牢なマルコフ決定プロセス(RMDP)の枠組みを採用する。
論文 参考訳(メタデータ) (2023-05-26T02:32:03Z) - Model-Free Robust Average-Reward Reinforcement Learning [25.125481838479256]
我々は,モデルフリーの反復設定の下で,ロバストな平均回帰MDPに着目した。
我々は2つのモデルフリーアルゴリズム、ロバスト相対値(RVI)TDとロバスト相対値(RVI)Q-ラーニングを設計し、理論的に最適解への収束性を証明した。
論文 参考訳(メタデータ) (2023-05-17T18:19:23Z) - Robust Entropy-regularized Markov Decision Processes [23.719568076996662]
本稿では,ER-MDPモデルのロバストバージョンについて検討する。
我々は, ER-MDPと頑健な非正規化MDPモデルに係わる重要な特性も設定に保たれることを示す。
私たちは、我々のフレームワークと結果を、価値や(修正された)ポリシーを含む異なるアルゴリズムのスキームに統合する方法を示します。
論文 参考訳(メタデータ) (2021-12-31T09:50:46Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - Reinforcement Learning for Adaptive Mesh Refinement [63.7867809197671]
マルコフ決定過程としてのAMRの新規な定式化を提案し,シミュレーションから直接改良政策を訓練するために深部強化学習を適用した。
これらのポリシーアーキテクチャのモデルサイズはメッシュサイズに依存しないため、任意に大きく複雑なシミュレーションにスケールします。
論文 参考訳(メタデータ) (2021-03-01T22:55:48Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Learning with Safety Constraints: Sample Complexity of Reinforcement
Learning for Constrained MDPs [13.922754427601491]
我々は,安全性の制約と,所望の精度を確保するために必要なサンプル数との関係を特徴付ける。
我々の主な発見は、制約のない状態の最もよく知られた境界と比較して、制約されたRLアルゴリズムのサンプルは制約の数に対数的な因子によって増加することである。
論文 参考訳(メタデータ) (2020-08-01T18:17:08Z) - Robust Reinforcement Learning using Least Squares Policy Iteration with
Provable Performance Guarantees [3.8073142980733]
本稿では,ロバストマルコフ決定過程(RMDP)におけるモデルレス強化学習の課題について述べる。
本稿では、まず、ポリシー評価のための多段階オンラインモデルフリー学習アルゴリズムであるRobust Least Squares Policy Evaluationアルゴリズムを提案する。
次に,ロバスト・ラスト・スクエアズ・ポリシー・イテレーション (RLSPI) アルゴリズムを提案し,ロバスト・ラスト・スクエアズ・ポリシーを最適に学習する。
論文 参考訳(メタデータ) (2020-06-20T16:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。