論文の概要: Solving Multi-Model MDPs by Coordinate Ascent and Dynamic Programming
- arxiv url: http://arxiv.org/abs/2407.06329v1
- Date: Mon, 8 Jul 2024 18:47:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 22:03:20.923266
- Title: Solving Multi-Model MDPs by Coordinate Ascent and Dynamic Programming
- Title(参考訳): アクセントと動的プログラミングの協調によるマルチモデルMDPの解法
- Authors: Xihong Su, Marek Petrik,
- Abstract要約: マルチモデルマルコフ決定プロセス(MMDP)は、コンピューティングポリシーのための有望なフレームワークである。
MMDP は,MDP モデルの分布よりも期待されるリターンを最大化する政策を見出すことを目的としている。
本稿では,コーディネート・アセント法と,MMDPを解く動的プログラミングアルゴリズムを組み合わせたCADPを提案する。
- 参考スコア(独自算出の注目度): 8.495921422521068
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multi-model Markov decision process (MMDP) is a promising framework for computing policies that are robust to parameter uncertainty in MDPs. MMDPs aim to find a policy that maximizes the expected return over a distribution of MDP models. Because MMDPs are NP-hard to solve, most methods resort to approximations. In this paper, we derive the policy gradient of MMDPs and propose CADP, which combines a coordinate ascent method and a dynamic programming algorithm for solving MMDPs. The main innovation of CADP compared with earlier algorithms is to take the coordinate ascent perspective to adjust model weights iteratively to guarantee monotone policy improvements to a local maximum. A theoretical analysis of CADP proves that it never performs worse than previous dynamic programming algorithms like WSU. Our numerical results indicate that CADP substantially outperforms existing methods on several benchmark problems.
- Abstract(参考訳): マルチモデルマルコフ決定プロセス(MMDP)は、MDPにおけるパラメータの不確実性に対して堅牢な計算ポリシーのための有望なフレームワークである。
MMDP は,MDP モデルの分布よりも期待されるリターンを最大化する政策を見出すことを目的としている。
MMDPはNPハードであるため、ほとんどの手法は近似に頼っている。
本稿では,MMDPの方針勾配を導出し,コーディネート・アセント法とMMDPを解く動的プログラミングアルゴリズムを組み合わせたCADPを提案する。
従来のアルゴリズムと比較してCADPの主な革新は、局所的な最大値に対する単調なポリシー改善を保証するために、座標アセンジの視点でモデルウェイトを反復的に調整することである。
CADPの理論的解析は、WSUのような従来の動的プログラミングアルゴリズムよりも性能が悪くないことを証明している。
以上の結果から,CADPはいくつかのベンチマーク問題において既存手法よりも大幅に優れていたことが示唆された。
関連論文リスト
- Q-learning for Quantile MDPs: A Decomposition, Performance, and Convergence Analysis [30.713243690224207]
マルコフ決定過程(MDPs)において、バリュー・アット・リスク(Value-at-Risk)のような量子リスク尺度は、特定の結果に対するRLエージェントの嗜好をモデル化するための標準指標である。
本稿では,強い収束と性能保証を有するMDPにおける量子化最適化のための新しいQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-31T16:53:20Z) - Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - MDP Geometry, Normalization and Reward Balancing Solvers [15.627546283580166]
マルコフ決定過程(英: Markov Decision Process、MDP)は、シーケンシャルな意思決定問題の数学的モデルである。
本稿では, 自然正規化手順によるMDPの幾何学的解釈を新たに提案する。これにより, 任意の政策に対する行動の利点を変えることなく, それぞれの状態における値関数を調整できる。
論文 参考訳(メタデータ) (2024-07-09T09:39:45Z) - Domain-Independent Dynamic Programming [5.449167190254984]
ドメイン独立動的プログラミング(DIDP)は動的プログラミング(DP)に基づく新しいモデルベースパラダイムである
AI計画にインスパイアされた状態遷移システムに基づくDPモデルを定義するフォーマリズムである動的プログラミング記述言語(DyPDL)を導入する。
探索アルゴリズムを用いてDyPDLモデルの解法と7つのDIDP解法を提案する。
論文 参考訳(メタデータ) (2024-01-25T01:48:09Z) - Non-stationary Reinforcement Learning under General Function
Approximation [60.430936031067006]
まず,非定常MDPに対する動的ベルマンエルダー次元(DBE)と呼ばれる新しい複雑性指標を提案する。
提案する複雑性指標に基づいて,SW-OPEAと呼ばれる新しい信頼度セットに基づくモデルフリーアルゴリズムを提案する。
SW-OPEAは,変動予算がそれほど大きくない限り,有効に有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T16:19:37Z) - Optimality Guarantees for Particle Belief Approximation of POMDPs [55.83001584645448]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。
POMDPは、特に状態と観測空間が連続的またはハイブリッドである場合、解決するのが非常に難しい。
本稿では,これらのアルゴリズムが使用する粒子フィルタリング手法の近似誤差を特徴付ける理論を提案する。
論文 参考訳(メタデータ) (2022-10-10T21:11:55Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Twice regularized MDPs and the equivalence between robustness and
regularization [65.58188361659073]
報酬を損なうMDPのポリシーイテレーションは、正規化MDPと同じ時間複雑性を持つことを示す。
正規化MDPを2倍の正規化MDPに一般化する。
論文 参考訳(メタデータ) (2021-10-12T18:33:45Z) - Safe Exploration by Solving Early Terminated MDP [77.10563395197045]
我々は、Early TerminatedP(ET-MDP)の枠組みの下で、安全なRL問題に対処する新しいアプローチを導入する。
まず、ET-MDPを対応するCMDPと同じ最適値関数を持つ非制約アルゴリズムとして定義する。
そこで,文脈モデルに基づく非政治アルゴリズムを提案し,ET-MDPを解き,それに対応するCMDPをより良い性能で解き,学習効率を向上する。
論文 参考訳(メタデータ) (2021-07-09T04:24:40Z) - A Relation Analysis of Markov Decision Process Frameworks [26.308541799686505]
機械学習における異なる決定プロセス(MDP)フレームワークと計量経済学文献との関係について検討する。
エントロピー正規化 MDP は MDP モデルと同値であり,一般正規化 MDP により厳密に仮定されることを示す。
論文 参考訳(メタデータ) (2020-08-18T09:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。