論文の概要: Primal-dual regression approach for Markov decision processes with
general state and action space
- arxiv url: http://arxiv.org/abs/2210.00258v2
- Date: Tue, 4 Oct 2022 16:41:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 10:41:29.714794
- Title: Primal-dual regression approach for Markov decision processes with
general state and action space
- Title(参考訳): 一般状態と作用空間をもつマルコフ決定過程に対する素数双回帰アプローチ
- Authors: Denis Belomestny and John Schoenmakers
- Abstract要約: 我々は,有限時間MDPを一般状態と行動空間で解くための回帰に基づく原始双対マーチンゲールアプローチを開発した。
その結果,提案手法は値関数の高次および低次偏差近似の構築を可能にし,最適ポリシに対する厳密な近似を提供する。
- 参考スコア(独自算出の注目度): 0.30458514384586394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop a regression based primal-dual martingale approach for solving
finite time horizon MDPs with general state and action space. As a result, our
method allows for the construction of tight upper and lower biased
approximations of the value functions, and, provides tight approximations to
the optimal policy. In particular, we prove tight error bounds for the
estimated duality gap featuring polynomial dependence on the time horizon, and
sublinear dependence on the cardinality/dimension of the possibly infinite
state and action space.From a computational point of view the proposed method
is efficient since, in contrast to usual duality-based methods for optimal
control problems in the literature, the Monte Carlo procedures here involved do
not require nested simulations.
- Abstract(参考訳): 我々は,有限時間地平線MDPを一般状態と行動空間で解くための回帰に基づく原始双対マーチンゲール手法を開発した。
その結果,提案手法では,値関数の上下のバイアス付き近似値の構成が可能となり,最適方針への厳密な近似値が得られる。
特に, 時間軸に対する多項式依存性と, 無限状態と作用空間の濃度・次元に対する部分線形依存性を特徴とする推定双対性ギャップに対する厳密な誤差境界を証明し, 計算学的観点からは, 文献における最適制御問題に対する通常の双対性に基づく手法とは対照的に, モンテカルロ手順はネストシミュレーションを必要としないため, 提案手法は効率的である。
関連論文リスト
- Trust-Region Sequential Quadratic Programming for Stochastic Optimization with Random Models [57.52124921268249]
本稿では,1次と2次の両方の定常点を見つけるための信頼逐次準計画法を提案する。
本手法は, 1次定常点に収束するため, 対象対象の近似を最小化して定義された各イテレーションの勾配ステップを計算する。
2階定常点に収束するため,本手法は負曲率を減少するヘッセン行列を探索する固有ステップも計算する。
論文 参考訳(メタデータ) (2024-09-24T04:39:47Z) - Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs [21.347689976296834]
我々は、割引された最適レート問題を解くために、自然政策勾配法を用いる。
また、2つのサンプルベースNPG-PDアルゴリズムに対して収束と有限サンプル保証を提供する。
論文 参考訳(メタデータ) (2022-06-06T04:28:04Z) - Algorithm for Constrained Markov Decision Process with Linear
Convergence [55.41644538483948]
エージェントは、そのコストに対する複数の制約により、期待される累積割引報酬を最大化することを目的としている。
エントロピー正規化ポリシーとベイダの二重化という2つの要素を統合した新しい双対アプローチが提案されている。
提案手法は(線形速度で)大域的最適値に収束することが示されている。
論文 参考訳(メタデータ) (2022-06-03T16:26:38Z) - Faster Algorithm and Sharper Analysis for Constrained Markov Decision
Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。
新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。
これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文 参考訳(メタデータ) (2021-10-20T02:57:21Z) - Near Optimality of Finite Memory Feedback Policies in Partially Observed
Markov Decision Processes [0.0]
システム力学と測定チャネルモデルが知られていると仮定したPOMDPの計画問題について検討する。
軽度非線形フィルタ安定性条件下で近似的信念モデルに対する最適ポリシーを求める。
また、有限ウィンドウメモリサイズと近似誤差境界を関連づけた収束結果のレートを確立する。
論文 参考訳(メタデータ) (2020-10-15T00:37:51Z) - Fast Objective & Duality Gap Convergence for Non-Convex Strongly-Concave
Min-Max Problems with PL Condition [52.08417569774822]
本稿では,深層学習(深層AUC)により注目度が高まっている,円滑な非凹部min-max問題の解法に焦点をあてる。
論文 参考訳(メタデータ) (2020-06-12T00:32:21Z) - Kernel Taylor-Based Value Function Approximation for Continuous-State
Markov Decision Processes [5.894659354028797]
我々は,カーネルベースのポリシー反復アルゴリズムを提案し,連続状態マルコフ決定過程(MDP)を解く。
提案手法は, 簡易計画シナリオと現実計画シナリオの両方において, 広範囲なシミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-06-03T01:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。