論文の概要: The Curious Price of Distributional Robustness in Reinforcement Learning
with a Generative Model
- arxiv url: http://arxiv.org/abs/2305.16589v1
- Date: Fri, 26 May 2023 02:32:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 17:19:56.952587
- Title: The Curious Price of Distributional Robustness in Reinforcement Learning
with a Generative Model
- Title(参考訳): 生成モデルを用いた強化学習における分布ロバストさの検証
- Authors: Laixi Shi, Gen Li, Yuting Wei, Yuxin Chen, Matthieu Geist, Yuejie Chi
- Abstract要約: 本稿では,強化学習(RL)におけるモデルロバスト性を検討した。
我々は,デプロイ環境が,名目MDPに規定された不確実性に陥る場合に,最悪の場合のパフォーマンスを最適化する政策を学習することを目的とした,分布的に堅牢なマルコフ決定プロセス(RMDP)の枠組みを採用する。
- 参考スコア(独自算出の注目度): 63.11179754372823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates model robustness in reinforcement learning (RL) to
reduce the sim-to-real gap in practice. We adopt the framework of
distributionally robust Markov decision processes (RMDPs), aimed at learning a
policy that optimizes the worst-case performance when the deployed environment
falls within a prescribed uncertainty set around the nominal MDP. Despite
recent efforts, the sample complexity of RMDPs remained mostly unsettled
regardless of the uncertainty set in use. It was unclear if distributional
robustness bears any statistical consequences when benchmarked against standard
RL.
Assuming access to a generative model that draws samples based on the nominal
MDP, we characterize the sample complexity of RMDPs when the uncertainty set is
specified via either the total variation (TV) distance or $\chi^2$ divergence.
The algorithm studied here is a model-based method called {\em distributionally
robust value iteration}, which is shown to be near-optimal for the full range
of uncertainty levels. Somewhat surprisingly, our results uncover that RMDPs
are not necessarily easier or harder to learn than standard MDPs. The
statistical consequence incurred by the robustness requirement depends heavily
on the size and shape of the uncertainty set: in the case w.r.t.~the TV
distance, the minimax sample complexity of RMDPs is always smaller than that of
standard MDPs; in the case w.r.t.~the $\chi^2$ divergence, the sample
complexity of RMDPs can often far exceed the standard MDP counterpart.
- Abstract(参考訳): 本稿では,強化学習(RL)におけるモデルロバスト性を検討した。
我々は,デプロイ環境が,名目MDPの周囲に規定された不確実性に陥る場合に,最悪の場合のパフォーマンスを最適化する政策の学習を目的とした,分布的に堅牢なマルコフ決定プロセス(RMDP)の枠組みを採用する。
近年の取り組みにもかかわらず、RMDPのサンプルの複雑さは、使用中の不確実性に関わらず、ほとんど未解決のままであった。
分布的ロバスト性が標準rlに対するベンチマークで統計的結果をもたらすかどうかは明らかでない。
名目MDPに基づいてサンプルを描画する生成モデルにアクセスすると、不確実性集合が全変動(TV)距離または$\chi^2$ばらつきによって特定される場合、RMDPのサンプル複雑性を特徴付ける。
ここでのアルゴリズムは、分布的に堅牢な値反復と呼ばれるモデルに基づく手法であり、不確実性レベルの全範囲に対してほぼ最適であることが示されている。
意外なことに、私たちの結果はRMDPが標準のMDPよりも簡単で、学習が難しいとは限らないことを明らかにしました。
堅牢性要求によって引き起こされる統計的結果は、不確実性集合のサイズと形状に大きく依存する: w.r.t.~TV距離の場合、RMDPのミニマックスサンプルの複雑さは標準のMDPよりも常に小さく、w.r.t.~$\chi^2$のばらつきの場合、RMDPのサンプルの複雑さは標準のMDPよりもはるかに大きい。
関連論文リスト
- Distributionally Robust Reinforcement Learning with Interactive Data Collection: Fundamental Hardness and Near-Optimal Algorithm [14.517103323409307]
Sim-to-realのギャップは、トレーニングとテスト環境の相違を表している。
この課題に対処するための有望なアプローチは、分布的に堅牢なRLである。
我々は対話型データ収集によるロバストなRLに取り組み、証明可能なサンプル複雑性を保証するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-04T16:40:22Z) - Sample Complexity of Offline Distributionally Robust Linear Markov Decision Processes [37.15580574143281]
オフライン強化学習(RL)
本稿では、オフラインデータを用いた全変動距離を特徴とする不確実性を伴う分布安定線形マルコフ決定過程(MDP)のサンプル複雑性について考察する。
我々は悲観的なモデルに基づくアルゴリズムを開発し、最小限のデータカバレッジ仮定の下でそのサンプルの複雑さを確立する。
論文 参考訳(メタデータ) (2024-03-19T17:48:42Z) - Provably Efficient Algorithm for Nonstationary Low-Rank MDPs [48.92657638730582]
我々は,非定常RLを,遷移カーネルと報酬の両方が時間とともに変化するような,エピソードな低ランクMDPで調査する最初の試みを行っている。
本稿では,パラメータ依存型ポリシ最適化アルゴリズムである Portal を提案し,パラメータフリー版である Ada-Portal の Portal をさらに改良する。
両アルゴリズムとも,非定常性が著しく大きくない限り, Portal と Ada-PortAL はサンプリング効率が良く,サンプリング複雑性を伴う平均的動的準最適ギャップを任意に小さく得ることを示す。
論文 参考訳(メタデータ) (2023-08-10T09:52:44Z) - Non-stationary Reinforcement Learning under General Function
Approximation [60.430936031067006]
まず,非定常MDPに対する動的ベルマンエルダー次元(DBE)と呼ばれる新しい複雑性指標を提案する。
提案する複雑性指標に基づいて,SW-OPEAと呼ばれる新しい信頼度セットに基づくモデルフリーアルゴリズムを提案する。
SW-OPEAは,変動予算がそれほど大きくない限り,有効に有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T16:19:37Z) - Twice Regularized Markov Decision Processes: The Equivalence between
Robustness and Regularization [64.60253456266872]
マルコフ決定プロセス(MDP)は、変化または部分的に知られているシステムのダイナミクスを扱うことを目的としている。
規則化されたMDPは、時間的複雑さを損なうことなく、ポリシー学習の安定性を高める。
ベルマン作用素は、収束と一般化を保証する計画と学習スキームを導出することができる。
論文 参考訳(メタデータ) (2023-03-12T13:03:28Z) - Distributionally Robust Model-Based Offline Reinforcement Learning with
Near-Optimal Sample Complexity [39.886149789339335]
オフライン強化学習は、積極的に探索することなく、履歴データから意思決定を行うことを学習することを目的としている。
環境の不確実性や変動性から,デプロイされた環境が,ヒストリデータセットの収集に使用される名目上のものから逸脱した場合でも,良好に機能するロバストなポリシーを学ぶことが重要である。
オフラインRLの分布的ロバストな定式化を考察し、有限水平および無限水平の両方でクルバック・リーブラー発散によって指定された不確実性セットを持つロバストマルコフ決定過程に着目する。
論文 参考訳(メタデータ) (2022-08-11T11:55:31Z) - Robust Entropy-regularized Markov Decision Processes [23.719568076996662]
本稿では,ER-MDPモデルのロバストバージョンについて検討する。
我々は, ER-MDPと頑健な非正規化MDPモデルに係わる重要な特性も設定に保たれることを示す。
私たちは、我々のフレームワークと結果を、価値や(修正された)ポリシーを含む異なるアルゴリズムのスキームに統合する方法を示します。
論文 参考訳(メタデータ) (2021-12-31T09:50:46Z) - Sample Complexity of Robust Reinforcement Learning with a Generative
Model [0.0]
本稿では,モデルに基づく強化学習(RL)アルゴリズムを提案する。
我々は,全変動距離,カイ二乗発散,KL発散の3種類の不確実性集合を考察した。
この結果に加えて,ロバストポリシの利点に関する公式な分析的議論も提示する。
論文 参考訳(メタデータ) (2021-12-02T18:55:51Z) - Twice regularized MDPs and the equivalence between robustness and
regularization [65.58188361659073]
報酬を損なうMDPのポリシーイテレーションは、正規化MDPと同じ時間複雑性を持つことを示す。
正規化MDPを2倍の正規化MDPに一般化する。
論文 参考訳(メタデータ) (2021-10-12T18:33:45Z) - Breaking the Sample Size Barrier in Model-Based Reinforcement Learning
with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。
最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。
対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-05-26T17:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。