論文の概要: Robust Markov Decision Processes without Model Estimation
- arxiv url: http://arxiv.org/abs/2302.01248v2
- Date: Tue, 12 Sep 2023 16:20:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 17:40:01.219476
- Title: Robust Markov Decision Processes without Model Estimation
- Title(参考訳): モデル推定を伴わないロバストマルコフ決定過程
- Authors: Wenhao Yang, Han Wang, Tadashi Kozuno, Scott M. Jordan, Zhihua Zhang
- Abstract要約: 堅牢なMDPの適用には,2つの大きな障壁がある。
第一に、ほとんどの研究はモデルベース体制における堅牢なMDPを研究している。
第二に、先行研究は通常、最適な解を得るために強いオラクルを仮定する。
- 参考スコア(独自算出の注目度): 32.16801929347098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust Markov Decision Processes (MDPs) are receiving much attention in
learning a robust policy which is less sensitive to environment changes. There
are an increasing number of works analyzing sample-efficiency of robust MDPs.
However, there are two major barriers to applying robust MDPs in practice.
First, most works study robust MDPs in a model-based regime, where the
transition probability needs to be estimated and requires a large amount of
memories $\mathcal{O}(|\mathcal{S}|^2|\mathcal{A}|)$. Second, prior work
typically assumes a strong oracle to obtain the optimal solution as an
intermediate step to solve robust MDPs. However, in practice, such an oracle
does not exist usually. To remove the oracle, we transform the original robust
MDPs into an alternative form, which allows us to use stochastic gradient
methods to solve the robust MDPs. Moreover, we prove the alternative form still
plays a similar role as the original form. With this new formulation, we devise
a sample-efficient algorithm to solve the robust MDPs in a model-free regime,
which does not require an oracle and trades off a lower storage requirement
$\mathcal{O}(|\mathcal{S}||\mathcal{A}|)$ with being able to generate samples
from a generative model or Markovian chain. Finally, we validate our
theoretical findings via numerical experiments, showing the efficiency with the
alternative form of robust MDPs.
- Abstract(参考訳): ロバストマルコフ決定プロセス(MDP)は、環境の変化に敏感でない堅牢なポリシーを学ぶ際に、多くの注目を集めている。
頑健なMDPのサンプル効率を分析する研究が増えている。
しかし、実際に堅牢なMDPを適用するには2つの大きな障壁がある。
第一に、ほとんどの研究は、遷移確率を推定し、大量のメモリを$\mathcal{O}(|\mathcal{S}|^2|\mathcal{A}|)$とする必要があるモデルベースの状態において堅牢なMDPを研究する。
第二に、先行研究は通常、堅牢なMDPを解決するための中間ステップとして最適解を得るための強いオラクルを仮定する。
しかし、実際には、そのようなオラクルは通常は存在しません。
オラクルを除去するために、元のロバストなMDPを別の形式に変換することで、確率勾配法を用いてロバストなMDPを解くことができる。
さらに、代替形式が元の形式と同じような役割を果たすことを証明している。
この新しい定式化により、oracleを必要とせず、より低いストレージ要件である$\mathcal{o}(|\mathcal{s}||\mathcal{a}|)$と引き換えに生成モデルまたはマルコフ連鎖からサンプルを生成することができる、モデルフリーな方法で堅牢なmdpを解決するためのサンプル効率の高いアルゴリズムを考案する。
最後に, 数値実験による理論的知見を検証し, 頑健なMDPの代替形態による効率性を示す。
関連論文リスト
- Q-learning for Quantile MDPs: A Decomposition, Performance, and Convergence Analysis [30.713243690224207]
マルコフ決定過程(MDPs)において、バリュー・アット・リスク(Value-at-Risk)のような量子リスク尺度は、特定の結果に対するRLエージェントの嗜好をモデル化するための標準指標である。
本稿では,強い収束と性能保証を有するMDPにおける量子化最適化のための新しいQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-31T16:53:20Z) - Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。
CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文 参考訳(メタデータ) (2024-02-05T03:25:04Z) - The Curious Price of Distributional Robustness in Reinforcement Learning with a Generative Model [61.87673435273466]
本稿では,強化学習(RL)におけるモデルロバスト性を検討した。
我々は,デプロイ環境が,名目MDPに規定された不確実性に陥る場合に,最悪の場合のパフォーマンスを最適化する政策を学習することを目的とした,分布的に堅牢なマルコフ決定プロセス(RMDP)の枠組みを採用する。
論文 参考訳(メタデータ) (2023-05-26T02:32:03Z) - Model-Free Robust Average-Reward Reinforcement Learning [25.125481838479256]
我々は,モデルフリーの反復設定の下で,ロバストな平均回帰MDPに着目した。
我々は2つのモデルフリーアルゴリズム、ロバスト相対値(RVI)TDとロバスト相対値(RVI)Q-ラーニングを設計し、理論的に最適解への収束性を証明した。
論文 参考訳(メタデータ) (2023-05-17T18:19:23Z) - Twice Regularized Markov Decision Processes: The Equivalence between
Robustness and Regularization [64.60253456266872]
マルコフ決定プロセス(MDP)は、変化または部分的に知られているシステムのダイナミクスを扱うことを目的としている。
規則化されたMDPは、時間的複雑さを損なうことなく、ポリシー学習の安定性を高める。
ベルマン作用素は、収束と一般化を保証する計画と学習スキームを導出することができる。
論文 参考訳(メタデータ) (2023-03-12T13:03:28Z) - An Efficient Solution to s-Rectangular Robust Markov Decision Processes [49.05403412954533]
テクスツ長方形ロバストマルコフ決定過程(MDP)に対する効率的なロバストな値反復法を提案する。
我々は,L_p$の水充填補題を用いて,ベルマン作用素を具体的形式で導出した。
最適な政策の正確な形を明らかにし、これは、その利点に比例する行動を起こす確率で、新しいしきい値ポリシーであることが判明した。
論文 参考訳(メタデータ) (2023-01-31T13:54:23Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Robust Phi-Divergence MDPs [13.555107578858307]
我々は、s-矩形あいまい性集合を持つ頑健なMDPのための新しいソリューションフレームワークを開発する。
関連したs-矩形ロバストMDPは、最先端の商用解法よりもはるかに高速に解けることを示す。
論文 参考訳(メタデータ) (2022-05-27T19:08:55Z) - CP-MDP: A CANDECOMP-PARAFAC Decomposition Approach to Solve a Markov
Decision Process Multidimensional Problem [21.79259092920586]
テンソル分解法を用いて多次元問題に対するMDPソルバを開発する。
われわれのアプローチは、メモリを大幅に減らして、より大きな問題を計算できることを示した。
論文 参考訳(メタデータ) (2021-02-27T21:33:19Z) - Partial Policy Iteration for L1-Robust Markov Decision Processes [13.555107578858307]
本稿では、ロバストなMDPの共通クラスを解くための新しい効率的なアルゴリズムについて述べる。
我々は、ロバストなMDPのための部分ポリシーイテレーション、新しい、効率的で柔軟な、一般的なポリシーイテレーションスキームを提案する。
実験結果から,提案手法は最先端手法よりも桁違いに高速であることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T19:50:14Z) - Plannable Approximations to MDP Homomorphisms: Equivariance under
Actions [72.30921397899684]
学習した表現に作用同値を強制する対照的な損失関数を導入する。
損失が 0 であるとき、決定論的マルコフ決定過程の準同型が存在することを証明している。
本研究では, 決定論的MDPに対して, 抽象MDPの最適方針を元のMDPに引き上げることに成功した。
論文 参考訳(メタデータ) (2020-02-27T08:29:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。