論文の概要: Initial Distribution Sensitivity of Constrained Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2510.00348v1
- Date: Tue, 30 Sep 2025 23:19:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.291847
- Title: Initial Distribution Sensitivity of Constrained Markov Decision Processes
- Title(参考訳): 制約マルコフ決定過程の初期分布感度
- Authors: Alperen Tercan, Necmiye Ozay,
- Abstract要約: CMDPの最適値が初期分布によってどのように変化するかを分析する。
このような境界は、初期分布の未知の変動により、与えられたポリシーの後悔を分析するためにどのように用いられるかを示す。
- 参考スコア(独自算出の注目度): 0.14323566945483493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Constrained Markov Decision Processes (CMDPs) are notably more complex to solve than standard MDPs due to the absence of universally optimal policies across all initial state distributions. This necessitates re-solving the CMDP whenever the initial distribution changes. In this work, we analyze how the optimal value of CMDPs varies with different initial distributions, deriving bounds on these variations using duality analysis of CMDPs and perturbation analysis in linear programming. Moreover, we show how such bounds can be used to analyze the regret of a given policy due to unknown variations of the initial distribution.
- Abstract(参考訳): 制約付きマルコフ決定過程(CMDP)は、全ての初期状態分布に普遍的に最適なポリシーがないため、標準のMDPよりも明らかに複雑である。
これにより、初期分布が変化するたびにCMDPを再解決する必要がある。
本研究では,CMDPの最適値が初期分布によってどのように変化するのかを解析し,CMDPの双対性解析と線形プログラミングにおける摂動解析を用いて,これらの変動のバウンダリを導出する。
さらに, 初期分布の未知の変動により, 与えられた政策の後悔を解析するために, このような境界がいかに用いられるかを示す。
関連論文リスト
- MDP Geometry, Normalization and Reward Balancing Solvers [15.627546283580166]
本稿では,マルコフ決定過程(MDP)の自然な正規化手順による新しい幾何学的解釈を提案する。
このMDPの利点保存変換は、私たちがReward Balancingと呼ぶアルゴリズムのクラスを動機付けます。
本稿では、このクラスにおけるいくつかのアルゴリズムの収束解析を行い、特に、未知の遷移確率のMDPに対して、最先端のサンプル複雑性の結果を改善することができることを示す。
論文 参考訳(メタデータ) (2024-07-09T09:39:45Z) - Efficiently Training Deep-Learning Parametric Policies using Lagrangian Duality [55.06411438416805]
制約付きマルコフ決定プロセス(CMDP)は、多くの高度な応用において重要である。
本稿では,パラメトリックアクターポリシーを効率的に訓練するための2段階深度決定規則(TS-DDR)を提案する。
現状の手法と比較して, 解の質を高め, 数桁の計算時間を削減できることが示されている。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Soft Robust MDPs and Risk-Sensitive MDPs: Equivalence, Policy Gradient, and Sample Complexity [7.57543767554282]
本稿では,リスクに敏感なMDPの新たな定式化について紹介し,従来のマルコフリスク尺度と若干異なる方法でリスクを評価する。
両問題に対してポリシー勾配定理を導出し、厳密なポリシー勾配法の勾配支配と大域収束を証明した。
また、サンプルベースのオフライン学習アルゴリズム、すなわちロバスト適応Z反復(RFZI)を提案する。
論文 参考訳(メタデータ) (2023-06-20T15:51:25Z) - Twice Regularized Markov Decision Processes: The Equivalence between
Robustness and Regularization [64.60253456266872]
マルコフ決定プロセス(MDP)は、変化または部分的に知られているシステムのダイナミクスを扱うことを目的としている。
規則化されたMDPは、時間的複雑さを損なうことなく、ポリシー学習の安定性を高める。
ベルマン作用素は、収束と一般化を保証する計画と学習スキームを導出することができる。
論文 参考訳(メタデータ) (2023-03-12T13:03:28Z) - First-order Policy Optimization for Robust Markov Decision Process [40.2022466644885]
我々はロバストマルコフ決定過程(MDP)の解法を考える。
MDPは、不確実な遷移カーネルを持つ割引状態、有限状態、有限作用空間 MDP の集合を含む。
$(mathbfs,mathbfa)$-矩形不確かさ集合に対して、ロバストな目的に関するいくつかの構造的な観察を確立する。
論文 参考訳(メタデータ) (2022-09-21T18:10:28Z) - On the convex formulations of robust Markov decision processes [12.100620186370012]
RMDPを解くためのMDP凸最適化定式化のアナログ反復は知られていない。
状態や行動の数に多くの変数と制約がある凸定式化を導出するが、制約には大きな係数がある。
論文 参考訳(メタデータ) (2022-09-21T08:39:02Z) - Twice regularized MDPs and the equivalence between robustness and
regularization [65.58188361659073]
報酬を損なうMDPのポリシーイテレーションは、正規化MDPと同じ時間複雑性を持つことを示す。
正規化MDPを2倍の正規化MDPに一般化する。
論文 参考訳(メタデータ) (2021-10-12T18:33:45Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Exploration-Exploitation in Constrained MDPs [79.23623305214275]
拘束マルコフ決定過程(CMDP)における探索・探索ジレンマについて検討する。
未知のCMDPで学習している間、エージェントは、MDPに関する新しい情報を見つけるために、トレードオフ探索を行う必要がある。
エージェントは最終的に良い方針や最適な方針を学習するが、学習プロセス中にエージェントが制約に過度に違反することを望まない。
論文 参考訳(メタデータ) (2020-03-04T17:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。