論文の概要: The Curious Price of Distributional Robustness in Reinforcement Learning
with a Generative Model
- arxiv url: http://arxiv.org/abs/2305.16589v1
- Date: Fri, 26 May 2023 02:32:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 17:19:56.952587
- Title: The Curious Price of Distributional Robustness in Reinforcement Learning
with a Generative Model
- Title(参考訳): 生成モデルを用いた強化学習における分布ロバストさの検証
- Authors: Laixi Shi, Gen Li, Yuting Wei, Yuxin Chen, Matthieu Geist, Yuejie Chi
- Abstract要約: 本稿では,強化学習(RL)におけるモデルロバスト性を検討した。
我々は,デプロイ環境が,名目MDPに規定された不確実性に陥る場合に,最悪の場合のパフォーマンスを最適化する政策を学習することを目的とした,分布的に堅牢なマルコフ決定プロセス(RMDP)の枠組みを採用する。
- 参考スコア(独自算出の注目度): 63.11179754372823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates model robustness in reinforcement learning (RL) to
reduce the sim-to-real gap in practice. We adopt the framework of
distributionally robust Markov decision processes (RMDPs), aimed at learning a
policy that optimizes the worst-case performance when the deployed environment
falls within a prescribed uncertainty set around the nominal MDP. Despite
recent efforts, the sample complexity of RMDPs remained mostly unsettled
regardless of the uncertainty set in use. It was unclear if distributional
robustness bears any statistical consequences when benchmarked against standard
RL.
Assuming access to a generative model that draws samples based on the nominal
MDP, we characterize the sample complexity of RMDPs when the uncertainty set is
specified via either the total variation (TV) distance or $\chi^2$ divergence.
The algorithm studied here is a model-based method called {\em distributionally
robust value iteration}, which is shown to be near-optimal for the full range
of uncertainty levels. Somewhat surprisingly, our results uncover that RMDPs
are not necessarily easier or harder to learn than standard MDPs. The
statistical consequence incurred by the robustness requirement depends heavily
on the size and shape of the uncertainty set: in the case w.r.t.~the TV
distance, the minimax sample complexity of RMDPs is always smaller than that of
standard MDPs; in the case w.r.t.~the $\chi^2$ divergence, the sample
complexity of RMDPs can often far exceed the standard MDP counterpart.
- Abstract(参考訳): 本稿では,強化学習(RL)におけるモデルロバスト性を検討した。
我々は,デプロイ環境が,名目MDPの周囲に規定された不確実性に陥る場合に,最悪の場合のパフォーマンスを最適化する政策の学習を目的とした,分布的に堅牢なマルコフ決定プロセス(RMDP)の枠組みを採用する。
近年の取り組みにもかかわらず、RMDPのサンプルの複雑さは、使用中の不確実性に関わらず、ほとんど未解決のままであった。
分布的ロバスト性が標準rlに対するベンチマークで統計的結果をもたらすかどうかは明らかでない。
名目MDPに基づいてサンプルを描画する生成モデルにアクセスすると、不確実性集合が全変動(TV)距離または$\chi^2$ばらつきによって特定される場合、RMDPのサンプル複雑性を特徴付ける。
ここでのアルゴリズムは、分布的に堅牢な値反復と呼ばれるモデルに基づく手法であり、不確実性レベルの全範囲に対してほぼ最適であることが示されている。
意外なことに、私たちの結果はRMDPが標準のMDPよりも簡単で、学習が難しいとは限らないことを明らかにしました。
堅牢性要求によって引き起こされる統計的結果は、不確実性集合のサイズと形状に大きく依存する: w.r.t.~TV距離の場合、RMDPのミニマックスサンプルの複雑さは標準のMDPよりも常に小さく、w.r.t.~$\chi^2$のばらつきの場合、RMDPのサンプルの複雑さは標準のMDPよりもはるかに大きい。
関連論文リスト
- Solving Long-run Average Reward Robust MDPs via Stochastic Games [4.833571004087541]
本稿では,長期平均ポリトピック RMDP を解くための新しいポリシーアルゴリズムである Robust Polytopic Policy Iteration (RPPI) を紹介する。
RPPIは、値反復に基づく最先端手法と比較して、長期平均報酬ポリトピー的RMDPerationの解法においてはるかに効率的である。
論文 参考訳(メタデータ) (2023-12-21T15:00:06Z) - Provably Efficient Algorithm for Nonstationary Low-Rank MDPs [48.92657638730582]
我々は,非定常RLを,遷移カーネルと報酬の両方が時間とともに変化するような,エピソードな低ランクMDPで調査する最初の試みを行っている。
本稿では,パラメータ依存型ポリシ最適化アルゴリズムである Portal を提案し,パラメータフリー版である Ada-Portal の Portal をさらに改良する。
両アルゴリズムとも,非定常性が著しく大きくない限り, Portal と Ada-PortAL はサンプリング効率が良く,サンプリング複雑性を伴う平均的動的準最適ギャップを任意に小さく得ることを示す。
論文 参考訳(メタデータ) (2023-08-10T09:52:44Z) - Non-stationary Reinforcement Learning under General Function
Approximation [60.430936031067006]
まず,非定常MDPに対する動的ベルマンエルダー次元(DBE)と呼ばれる新しい複雑性指標を提案する。
提案する複雑性指標に基づいて,SW-OPEAと呼ばれる新しい信頼度セットに基づくモデルフリーアルゴリズムを提案する。
SW-OPEAは,変動予算がそれほど大きくない限り,有効に有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T16:19:37Z) - On Practical Robust Reinforcement Learning: Practical Uncertainty Set
and Double-Agent Algorithm [11.748284119769039]
ロバスト強化学習(RRL)は、マルコフ決定プロセス(MDP)の不確実性に対して最悪のケースパフォーマンスを最適化するための堅牢なポリシーを求めることを目的としている。
論文 参考訳(メタデータ) (2023-05-11T08:52:09Z) - Twice Regularized Markov Decision Processes: The Equivalence between
Robustness and Regularization [64.60253456266872]
マルコフ決定プロセス(MDP)は、変化または部分的に知られているシステムのダイナミクスを扱うことを目的としている。
規則化されたMDPは、時間的複雑さを損なうことなく、ポリシー学習の安定性を高める。
ベルマン作用素は、収束と一般化を保証する計画と学習スキームを導出することができる。
論文 参考訳(メタデータ) (2023-03-12T13:03:28Z) - Distributionally Robust Model-Based Offline Reinforcement Learning with
Near-Optimal Sample Complexity [39.886149789339335]
オフライン強化学習は、積極的に探索することなく、履歴データから意思決定を行うことを学習することを目的としている。
環境の不確実性や変動性から,デプロイされた環境が,ヒストリデータセットの収集に使用される名目上のものから逸脱した場合でも,良好に機能するロバストなポリシーを学ぶことが重要である。
オフラインRLの分布的ロバストな定式化を考察し、有限水平および無限水平の両方でクルバック・リーブラー発散によって指定された不確実性セットを持つロバストマルコフ決定過程に着目する。
論文 参考訳(メタデータ) (2022-08-11T11:55:31Z) - Robust Entropy-regularized Markov Decision Processes [23.719568076996662]
本稿では,ER-MDPモデルのロバストバージョンについて検討する。
我々は, ER-MDPと頑健な非正規化MDPモデルに係わる重要な特性も設定に保たれることを示す。
私たちは、我々のフレームワークと結果を、価値や(修正された)ポリシーを含む異なるアルゴリズムのスキームに統合する方法を示します。
論文 参考訳(メタデータ) (2021-12-31T09:50:46Z) - Sample Complexity of Robust Reinforcement Learning with a Generative
Model [0.0]
本稿では,モデルに基づく強化学習(RL)アルゴリズムを提案する。
我々は,全変動距離,カイ二乗発散,KL発散の3種類の不確実性集合を考察した。
この結果に加えて,ロバストポリシの利点に関する公式な分析的議論も提示する。
論文 参考訳(メタデータ) (2021-12-02T18:55:51Z) - Twice regularized MDPs and the equivalence between robustness and
regularization [65.58188361659073]
報酬を損なうMDPのポリシーイテレーションは、正規化MDPと同じ時間複雑性を持つことを示す。
正規化MDPを2倍の正規化MDPに一般化する。
論文 参考訳(メタデータ) (2021-10-12T18:33:45Z) - Breaking the Sample Size Barrier in Model-Based Reinforcement Learning
with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。
最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。
対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-05-26T17:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。