論文の概要: Bayesian regularization of empirical MDPs
- arxiv url: http://arxiv.org/abs/2208.02362v1
- Date: Wed, 3 Aug 2022 22:02:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-05 12:17:56.372321
- Title: Bayesian regularization of empirical MDPs
- Title(参考訳): 経験的MDPのベイズ正規化
- Authors: Samarth Gupta, Daniel N. Hill, Lexing Ying, Inderjit Dhillon
- Abstract要約: ベイズ的な視点を採り、マルコフ決定プロセスの目的関数を事前情報で正規化する。
提案するアルゴリズムは,大規模オンラインショッピングストアの合成シミュレーションと実世界の検索ログに基づいて評価する。
- 参考スコア(独自算出の注目度): 11.3458118258705
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In most applications of model-based Markov decision processes, the parameters
for the unknown underlying model are often estimated from the empirical data.
Due to noise, the policy learnedfrom the estimated model is often far from the
optimal policy of the underlying model. When applied to the environment of the
underlying model, the learned policy results in suboptimal performance, thus
calling for solutions with better generalization performance. In this work we
take a Bayesian perspective and regularize the objective function of the Markov
decision process with prior information in order to obtain more robust
policies. Two approaches are proposed, one based on $L^1$ regularization and
the other on relative entropic regularization. We evaluate our proposed
algorithms on synthetic simulations and on real-world search logs of a large
scale online shopping store. Our results demonstrate the robustness of
regularized MDP policies against the noise present in the models.
- Abstract(参考訳): モデルに基づくマルコフ決定過程のほとんどの応用において、未知のモデルのパラメータは経験的データから推定されることが多い。
ノイズのため、推定モデルから学んだポリシーは、基礎となるモデルの最適ポリシーから遠く離れていることが多い。
基礎となるモデルの環境に適用すると、学習されたポリシーは最適でないパフォーマンスをもたらすので、より一般化されたパフォーマンスのソリューションを求めます。
本研究では,ベイズ的視点を取り,より強固な方針を得るために,マルコフ決定プロセスの客観的な機能を事前情報で定式化する。
1つは$l^1$正規化、もう1つは相対エントロピー正規化である。
提案アルゴリズムは,大規模オンラインショッピングストアの合成シミュレーションと実世界の検索ログに基づいて評価する。
本研究は,モデルに存在する雑音に対する正規化mdpポリシーのロバスト性を示す。
関連論文リスト
- 1-2-3-Go! Policy Synthesis for Parameterized Markov Decision Processes via Decision-Tree Learning and Generalization [0.8795040582681393]
特に、パラメータ化されたマルコフ決定過程をインスタンス化するときに状態空間は極端に大きくなる。
我々は,そのような巨大なMDPに対して合理的な政策を得るための学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-23T21:57:05Z) - Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms [34.593772931446125]
モノグラフは、平均報酬決定過程(MDPs)の文脈内で制約された様々なモデルベースおよびモデルフリーアプローチの探索に焦点を当てている
このアルゴリズムは制約付きMDPの解法として検討されている。
論文 参考訳(メタデータ) (2024-06-17T12:46:02Z) - Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。
CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文 参考訳(メタデータ) (2024-02-05T03:25:04Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Sample Complexity of Robust Reinforcement Learning with a Generative
Model [0.0]
本稿では,モデルに基づく強化学習(RL)アルゴリズムを提案する。
我々は,全変動距離,カイ二乗発散,KL発散の3種類の不確実性集合を考察した。
この結果に加えて,ロバストポリシの利点に関する公式な分析的議論も提示する。
論文 参考訳(メタデータ) (2021-12-02T18:55:51Z) - Learning Robust Controllers Via Probabilistic Model-Based Policy Search [2.886634516775814]
このような方法で学習したコントローラが、環境の小さな摂動の下で頑健であり、一般化できるかどうかを考察する。
ガウス過程のダイナミックスモデルにおける確率雑音に対する低拘束がポリシー更新を規則化し、より堅牢なコントローラが得られることを示す。
論文 参考訳(メタデータ) (2021-10-26T11:17:31Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Bayes-Adaptive Deep Model-Based Policy Optimisation [4.675381958034012]
本稿では,モデル不確実性を捕捉し,サンプル効率のよいポリシ最適化を実現する,ベイズ型(深度)モデルベース強化学習法(RoMBRL)を提案する。
ベイズ適応マルコフ決定過程(BAMDP)としてモデルに基づく政策最適化問題を定式化することを提案する。
また,RoMBRLは,サンプルの複雑度やタスク性能の観点から,多くの困難な制御ベンチマークタスクにおいて,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-29T21:17:25Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。