論文の概要: Performance Improvement Bounds for Lipschitz Configurable Markov
Decision Processes
- arxiv url: http://arxiv.org/abs/2402.13821v1
- Date: Wed, 21 Feb 2024 13:59:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 15:06:50.499606
- Title: Performance Improvement Bounds for Lipschitz Configurable Markov
Decision Processes
- Title(参考訳): リプシッツ構成可能なマルコフ決定過程の性能改善限界
- Authors: Alberto Maria Metelli
- Abstract要約: Conf-MDPは、伝統的なマルコフ決定プロセス(MDP)の拡張として導入された。
本稿では、正規性条件を満たすConf-MDPの特定のサブクラス、すなわちリプシッツ連続性に焦点を当てる。
- 参考スコア(独自算出の注目度): 21.507699770496927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Configurable Markov Decision Processes (Conf-MDPs) have recently been
introduced as an extension of the traditional Markov Decision Processes (MDPs)
to model the real-world scenarios in which there is the possibility to
intervene in the environment in order to configure some of its parameters. In
this paper, we focus on a particular subclass of Conf-MDP that satisfies
regularity conditions, namely Lipschitz continuity. We start by providing a
bound on the Wasserstein distance between $\gamma$-discounted stationary
distributions induced by changing policy and configuration. This result
generalizes the already existing bounds both for Conf-MDPs and traditional
MDPs. Then, we derive a novel performance improvement lower bound.
- Abstract(参考訳): 構成可能なマルコフ決定プロセス(Conf-MDPs)は、最近、伝統的なマルコフ決定プロセス(MDPs)の拡張として導入され、いくつかのパラメータを設定するために環境に介入する可能性がある現実のシナリオをモデル化している。
本稿では、正規性条件を満たすConf-MDPの特定のサブクラス、すなわちリプシッツ連続性に焦点を当てる。
まず、方針変更と構成変更によって引き起こされる、$\gamma$-discounted stationary distribution間のwasserstein距離の境界を提供することから始める。
この結果は、Conf-MDPと従来のMDPの両方の既存の境界を一般化する。
そして,新しい性能改善を低域で導出する。
関連論文リスト
- Certifiably Robust Policies for Uncertain Parametric Environments [57.2416302384766]
本稿ではパラメータ上の未知分布を持つパラメトリックマルコフ決定プロセス(MDP)に基づくフレームワークを提案する。
パラメータによって誘導される未知のサンプル環境に対するIMDPの学習と解析を行う。
当社のアプローチは,信頼度の高い政策のパフォーマンスに厳密な拘束力をもたらすことを示す。
論文 参考訳(メタデータ) (2024-08-06T10:48:15Z) - Computing Low-Entropy Couplings for Large-Support Distributions [53.00113867130712]
最小エントロピー結合は因果関係やステガノグラフィーなどの分野で応用されている。
既存のアルゴリズムは、大容量の分布に対して計算的に抽出可能であるか、特定の分布タイプに限定されている。
この研究は、事前の反復MECアプローチを一般化されたパーティションベースの形式主義に統一することにより、これらの制限に対処する。
論文 参考訳(メタデータ) (2024-05-29T21:54:51Z) - Learning non-Markovian Decision-Making from State-only Sequences [57.20193609153983]
非マルコフ決定過程(nMDP)を用いた状態のみ列のモデルに基づく模倣を開発する。
非マルコフ制約をもつ経路計画課題において提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-06-27T02:26:01Z) - Twice Regularized Markov Decision Processes: The Equivalence between
Robustness and Regularization [64.60253456266872]
マルコフ決定プロセス(MDP)は、変化または部分的に知られているシステムのダイナミクスを扱うことを目的としている。
規則化されたMDPは、時間的複雑さを損なうことなく、ポリシー学習の安定性を高める。
ベルマン作用素は、収束と一般化を保証する計画と学習スキームを導出することができる。
論文 参考訳(メタデータ) (2023-03-12T13:03:28Z) - Policy Gradient With Serial Markov Chain Reasoning [10.152838128195468]
我々は,強化学習における意思決定を反復的推論プロセスとして行う新しい枠組みを導入する。
従来のRLには本質的に欠落しているいくつかの有用な特性があることを示す。
提案アルゴリズムは,人気の高いMujocoおよびDeepMind Controlベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-13T06:15:29Z) - First-order Policy Optimization for Robust Markov Decision Process [40.2022466644885]
我々はロバストマルコフ決定過程(MDP)の解法を考える。
MDPは、不確実な遷移カーネルを持つ割引状態、有限状態、有限作用空間 MDP の集合を含む。
$(mathbfs,mathbfa)$-矩形不確かさ集合に対して、ロバストな目的に関するいくつかの構造的な観察を確立する。
論文 参考訳(メタデータ) (2022-09-21T18:10:28Z) - Robust Phi-Divergence MDPs [13.555107578858307]
我々は、s-矩形あいまい性集合を持つ頑健なMDPのための新しいソリューションフレームワークを開発する。
関連したs-矩形ロバストMDPは、最先端の商用解法よりもはるかに高速に解けることを示す。
論文 参考訳(メタデータ) (2022-05-27T19:08:55Z) - A Fully Polynomial Time Approximation Scheme for Constrained MDPs and
Stochastic Shortest Path under Local Transitions [2.512827436728378]
我々は,(C)C-MDPの構造,特に局所遷移を伴う重要な変種について検討した。
本研究では,(C)C-MDPの最適決定性ポリシを(ほぼ)計算する完全時間近似手法を提案する。
論文 参考訳(メタデータ) (2022-04-10T22:08:33Z) - Twice regularized MDPs and the equivalence between robustness and
regularization [65.58188361659073]
報酬を損なうMDPのポリシーイテレーションは、正規化MDPと同じ時間複雑性を持つことを示す。
正規化MDPを2倍の正規化MDPに一般化する。
論文 参考訳(メタデータ) (2021-10-12T18:33:45Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。