論文の概要: Avoiding Model Estimation in Robust Markov Decision Processes with a
Generative Model
- arxiv url: http://arxiv.org/abs/2302.01248v1
- Date: Thu, 2 Feb 2023 17:29:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 13:08:31.922895
- Title: Avoiding Model Estimation in Robust Markov Decision Processes with a
Generative Model
- Title(参考訳): 生成モデルを用いたロバストマルコフ決定過程におけるモデル推定の回避
- Authors: Wenhao Yang, Han Wang, Tadashi Kozuno, Scott M. Jordan, Zhihua Zhang
- Abstract要約: モデルフリーなシステムにおいて、ロバストなMDPを解くために、サンプル効率のアルゴリズムを考案する。
我々は、代替形態が依然として堅牢性の役割を保っていることを証明している。
- 参考スコア(独自算出の注目度): 23.12112821731514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust Markov Decision Processes (MDPs) are getting more attention for
learning a robust policy which is less sensitive to environment changes. There
are an increasing number of works analyzing sample-efficiency of robust MDPs.
However, most works study robust MDPs in a model-based regime, where the
transition probability needs to be estimated and requires
$\mathcal{O}(|\mathcal{S}|^2|\mathcal{A}|)$ storage in memory. A common way to
solve robust MDPs is to formulate them as a distributionally robust
optimization (DRO) problem. However, solving a DRO problem is non-trivial, so
prior works typically assume a strong oracle to obtain the optimal solution of
the DRO problem easily. To remove the need for an oracle, we first transform
the original robust MDPs into an alternative form, as the alternative form
allows us to use stochastic gradient methods to solve the robust MDPs.
Moreover, we prove the alternative form still preserves the role of robustness.
With this new formulation, we devise a sample-efficient algorithm to solve the
robust MDPs in a model-free regime, from which we benefit lower memory space
$\mathcal{O}(|\mathcal{S}||\mathcal{A}|)$ without using the oracle. Finally, we
validate our theoretical findings via numerical experiments and show the
efficiency to solve the alternative form of robust MDPs.
- Abstract(参考訳): ロバストマルコフ決定プロセス(MDP)は、環境の変化に敏感でない堅牢なポリシーを学ぶことで、より注目を集めている。
頑健なMDPのサンプル効率を分析する研究が増えている。
しかし、ほとんどの研究は、遷移確率を推定し、メモリ上の$$\mathcal{O}(|\mathcal{S}|^2|\mathcal{A}|)$記憶を必要とするモデルベースの状態において堅牢なMDPを研究する。
ロバストなMDPを解く一般的な方法は、それらを分布的にロバストな最適化(DRO)問題として定式化することである。
しかし、DRO問題を解くことは自明ではないので、先行研究は通常、DRO問題の最適解を得るために強いオラクルを仮定する。
オラクルの必要性を取り除くために、我々はまず元の頑健なMDPを別の形式に変換する。
さらに, 代替形式が頑健性の役割を保っていることを証明した。
この新しい定式化により、モデルフリーな方法でロバストなmdpを解決するためのサンプル効率のよいアルゴリズムを考案し、そこからオラクルを使わずに低メモリ空間$\mathcal{o}(|\mathcal{s}||\mathcal{a}|)$を得ることができる。
最後に, 数値実験により理論的知見を検証し, 頑健なMDPの代替形を解く効率を示す。
関連論文リスト
- Q-learning for Quantile MDPs: A Decomposition, Performance, and Convergence Analysis [30.713243690224207]
マルコフ決定過程(MDPs)において、バリュー・アット・リスク(Value-at-Risk)のような量子リスク尺度は、特定の結果に対するRLエージェントの嗜好をモデル化するための標準指標である。
本稿では,強い収束と性能保証を有するMDPにおける量子化最適化のための新しいQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-31T16:53:20Z) - Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。
CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文 参考訳(メタデータ) (2024-02-05T03:25:04Z) - The Curious Price of Distributional Robustness in Reinforcement Learning with a Generative Model [61.87673435273466]
本稿では,強化学習(RL)におけるモデルロバスト性を検討した。
我々は,デプロイ環境が,名目MDPに規定された不確実性に陥る場合に,最悪の場合のパフォーマンスを最適化する政策を学習することを目的とした,分布的に堅牢なマルコフ決定プロセス(RMDP)の枠組みを採用する。
論文 参考訳(メタデータ) (2023-05-26T02:32:03Z) - Model-Free Robust Average-Reward Reinforcement Learning [25.125481838479256]
我々は,モデルフリーの反復設定の下で,ロバストな平均回帰MDPに着目した。
我々は2つのモデルフリーアルゴリズム、ロバスト相対値(RVI)TDとロバスト相対値(RVI)Q-ラーニングを設計し、理論的に最適解への収束性を証明した。
論文 参考訳(メタデータ) (2023-05-17T18:19:23Z) - Twice Regularized Markov Decision Processes: The Equivalence between
Robustness and Regularization [64.60253456266872]
マルコフ決定プロセス(MDP)は、変化または部分的に知られているシステムのダイナミクスを扱うことを目的としている。
規則化されたMDPは、時間的複雑さを損なうことなく、ポリシー学習の安定性を高める。
ベルマン作用素は、収束と一般化を保証する計画と学習スキームを導出することができる。
論文 参考訳(メタデータ) (2023-03-12T13:03:28Z) - An Efficient Solution to s-Rectangular Robust Markov Decision Processes [49.05403412954533]
テクスツ長方形ロバストマルコフ決定過程(MDP)に対する効率的なロバストな値反復法を提案する。
我々は,L_p$の水充填補題を用いて,ベルマン作用素を具体的形式で導出した。
最適な政策の正確な形を明らかにし、これは、その利点に比例する行動を起こす確率で、新しいしきい値ポリシーであることが判明した。
論文 参考訳(メタデータ) (2023-01-31T13:54:23Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Robust Phi-Divergence MDPs [13.555107578858307]
我々は、s-矩形あいまい性集合を持つ頑健なMDPのための新しいソリューションフレームワークを開発する。
関連したs-矩形ロバストMDPは、最先端の商用解法よりもはるかに高速に解けることを示す。
論文 参考訳(メタデータ) (2022-05-27T19:08:55Z) - CP-MDP: A CANDECOMP-PARAFAC Decomposition Approach to Solve a Markov
Decision Process Multidimensional Problem [21.79259092920586]
テンソル分解法を用いて多次元問題に対するMDPソルバを開発する。
われわれのアプローチは、メモリを大幅に減らして、より大きな問題を計算できることを示した。
論文 参考訳(メタデータ) (2021-02-27T21:33:19Z) - Partial Policy Iteration for L1-Robust Markov Decision Processes [13.555107578858307]
本稿では、ロバストなMDPの共通クラスを解くための新しい効率的なアルゴリズムについて述べる。
我々は、ロバストなMDPのための部分ポリシーイテレーション、新しい、効率的で柔軟な、一般的なポリシーイテレーションスキームを提案する。
実験結果から,提案手法は最先端手法よりも桁違いに高速であることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T19:50:14Z) - Plannable Approximations to MDP Homomorphisms: Equivariance under
Actions [72.30921397899684]
学習した表現に作用同値を強制する対照的な損失関数を導入する。
損失が 0 であるとき、決定論的マルコフ決定過程の準同型が存在することを証明している。
本研究では, 決定論的MDPに対して, 抽象MDPの最適方針を元のMDPに引き上げることに成功した。
論文 参考訳(メタデータ) (2020-02-27T08:29:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。