論文の概要: A Relation Analysis of Markov Decision Process Frameworks
- arxiv url: http://arxiv.org/abs/2008.07820v1
- Date: Tue, 18 Aug 2020 09:27:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 22:24:45.185395
- Title: A Relation Analysis of Markov Decision Process Frameworks
- Title(参考訳): マルコフ決定過程の枠組みに関する関係解析
- Authors: Tien Mai and Patrick Jaillet
- Abstract要約: 機械学習における異なる決定プロセス(MDP)フレームワークと計量経済学文献との関係について検討する。
エントロピー正規化 MDP は MDP モデルと同値であり,一般正規化 MDP により厳密に仮定されることを示す。
- 参考スコア(独自算出の注目度): 26.308541799686505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the relation between different Markov Decision Process (MDP)
frameworks in the machine learning and econometrics literatures, including the
standard MDP, the entropy and general regularized MDP, and stochastic MDP,
where the latter is based on the assumption that the reward function is
stochastic and follows a given distribution. We show that the
entropy-regularized MDP is equivalent to a stochastic MDP model, and is
strictly subsumed by the general regularized MDP. Moreover, we propose a
distributional stochastic MDP framework by assuming that the distribution of
the reward function is ambiguous. We further show that the distributional
stochastic MDP is equivalent to the regularized MDP, in the sense that they
always yield the same optimal policies. We also provide a connection between
stochastic/regularized MDP and constrained MDP. Our work gives a unified view
on several important MDP frameworks, which would lead new ways to interpret the
(entropy/general) regularized MDP frameworks through the lens of stochastic
rewards and vice-versa. Given the recent popularity of regularized MDP in
(deep) reinforcement learning, our work brings new understandings of how such
algorithmic schemes work and suggest ideas to develop new ones.
- Abstract(参考訳): 機械学習におけるマルコフ決定過程 (MDP) のフレームワーク間の関係について検討し, 標準的なMDP, エントロピー, 一般正規化MDP, 確率的MDPなど, 報酬関数が確率的であり, 所定の分布に従うという仮定に基づいて検討した。
エントロピー正則化 MDP は確率的 MDP モデルと同値であり,一般正規化 MDP により厳密に仮定されることを示す。
さらに,報奨関数の分布が曖昧であることを前提として,分布確率的MDPフレームワークを提案する。
さらに,分布確率的 MDP は正規化された MDP と同値であり,常に同じ最適ポリシーを導出することを示す。
また,確率/正規化MDPと制約MDPとの接続も提供する。
我々の研究は、いくつかの重要なMDPフレームワークについて統一的な視点を与え、確率的な報酬と逆転のレンズを通して(エントロピー/一般)正規化されたMDPフレームワークを解釈する新たな方法をもたらすだろう。
近年の強化学習における正規化MDPの人気を踏まえ、我々の研究はそのようなアルゴリズムの仕組みがどのように機能するかの新しい理解をもたらし、新しいものを開発するためのアイデアを提案する。
関連論文リスト
- Solving Multi-Model MDPs by Coordinate Ascent and Dynamic Programming [8.495921422521068]
マルチモデルマルコフ決定プロセス(MMDP)は、コンピューティングポリシーのための有望なフレームワークである。
MMDP は,MDP モデルの分布よりも期待されるリターンを最大化する政策を見出すことを目的としている。
本稿では,コーディネート・アセント法と,MMDPを解く動的プログラミングアルゴリズムを組み合わせたCADPを提案する。
論文 参考訳(メタデータ) (2024-07-08T18:47:59Z) - Twice Regularized Markov Decision Processes: The Equivalence between
Robustness and Regularization [64.60253456266872]
マルコフ決定プロセス(MDP)は、変化または部分的に知られているシステムのダイナミクスを扱うことを目的としている。
規則化されたMDPは、時間的複雑さを損なうことなく、ポリシー学習の安定性を高める。
ベルマン作用素は、収束と一般化を保証する計画と学習スキームを導出することができる。
論文 参考訳(メタデータ) (2023-03-12T13:03:28Z) - Optimality Guarantees for Particle Belief Approximation of POMDPs [55.83001584645448]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。
POMDPは、特に状態と観測空間が連続的またはハイブリッドである場合、解決するのが非常に難しい。
本稿では,これらのアルゴリズムが使用する粒子フィルタリング手法の近似誤差を特徴付ける理論を提案する。
論文 参考訳(メタデータ) (2022-10-10T21:11:55Z) - Twice regularized MDPs and the equivalence between robustness and
regularization [65.58188361659073]
報酬を損なうMDPのポリシーイテレーションは、正規化MDPと同じ時間複雑性を持つことを示す。
正規化MDPを2倍の正規化MDPに一般化する。
論文 参考訳(メタデータ) (2021-10-12T18:33:45Z) - Safe Exploration by Solving Early Terminated MDP [77.10563395197045]
我々は、Early TerminatedP(ET-MDP)の枠組みの下で、安全なRL問題に対処する新しいアプローチを導入する。
まず、ET-MDPを対応するCMDPと同じ最適値関数を持つ非制約アルゴリズムとして定義する。
そこで,文脈モデルに基づく非政治アルゴリズムを提案し,ET-MDPを解き,それに対応するCMDPをより良い性能で解き,学習効率を向上する。
論文 参考訳(メタデータ) (2021-07-09T04:24:40Z) - Reward is enough for convex MDPs [30.478950691312715]
静止分布の凸関数として目標が表現される凸MDPについて検討する。
本稿では,この問題を解決するメタアルゴリズムを提案し,文献における既存のアルゴリズムを統一することを示す。
論文 参考訳(メタデータ) (2021-06-01T17:46:25Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - RL for Latent MDPs: Regret Guarantees and a Lower Bound [74.41782017817808]
後期マルコフ決定過程(LMDP)における強化学習における後悔問題の検討
LMDPにおいて、M$可能なMDPのセットからMDPをランダムに描画するが、選択したMDPの同一性はエージェントに明らかにしない。
鍵となるリンクは、MDPシステムの力学の分離の概念であることを示す。
論文 参考訳(メタデータ) (2021-02-09T16:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。