論文の概要: Non-stationary and Varying-discounting Markov Decision Processes for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.17598v1
- Date: Mon, 17 Nov 2025 23:00:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.278054
- Title: Non-stationary and Varying-discounting Markov Decision Processes for Reinforcement Learning
- Title(参考訳): 強化学習のための非定常・分散マルコフ決定過程
- Authors: Zhizuo Chen, Theodore T. Allen,
- Abstract要約: 非定常的・分散的MDPフレームワークを導入し、非定常性を自然に許容し、時間や遷移に応じて割引率を変化させる。
我々はNVMDPの理論的基礎を確立し、仮定、状態値、行動値の定式化、再帰を含む。
我々は動的プログラミングと一般化されたQ-ラーニングアルゴリズムをNVMDPに適応し、公式な収束証明を行う。
- 参考スコア(独自算出の注目度): 1.6328866317851185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Algorithms developed under stationary Markov Decision Processes (MDPs) often face challenges in non-stationary environments, and infinite-horizon formulations may not directly apply to finite-horizon tasks. To address these limitations, we introduce the Non-stationary and Varying-discounting MDP (NVMDP) framework, which naturally accommodates non-stationarity and allows discount rates to vary with time and transitions. Infinite-horizon, stationary MDPs emerge as special cases of NVMDPs for identifying an optimal policy, and finite-horizon MDPs are also subsumed within the NVMDP formulations. Moreover, NVMDPs provide a flexible mechanism to shape optimal policies, without altering the state space, action space, or the reward structure. We establish the theoretical foundations of NVMDPs, including assumptions, state- and action-value formulation and recursion, matrix representation, optimality conditions, and policy improvement under finite state and action spaces. Building on these results, we adapt dynamic programming and generalized Q-learning algorithms to NVMDPs, along with formal convergence proofs. For problems requiring function approximation, we extend the Policy Gradient Theorem and the policy improvement bound in Trust Region Policy Optimization (TRPO), offering proofs in both scalar and matrix forms. Empirical evaluations in a non-stationary gridworld environment demonstrate that NVMDP-based algorithms successfully recover optimal trajectories under multiple reward and discounting schemes, whereas original Q-learning fails. These results collectively show that NVMDPs provide a theoretically sound and practically effective framework for reinforcement learning, requiring only minor algorithmic modifications while enabling robust handling of non-stationarity and explicit optimal policy shaping.
- Abstract(参考訳): 定常マルコフ決定過程(MDP)の下で開発されたアルゴリズムは、非定常環境においてしばしば課題に直面し、無限水平定式化は有限水平問題に直接適用できない。
これらの制約に対処するため,非定常・分散型MDP(NVMDP)フレームワークを導入し,非定常性を自然に許容し,時間や遷移に応じて割引率を変化させる。
有限水平 MDP は最適方針を特定するための NVMDP の特別な場合として出現し、有限水平 MDP も NVMDP の定式化に含まれる。
さらに、NVMDPは、状態空間、アクション空間、報酬構造を変更することなく、最適なポリシーを形成する柔軟なメカニズムを提供する。
我々はNVMDPの理論的基礎を確立し、仮定、状態および行動値の定式化と再帰、行列表現、最適条件、有限状態および行動空間下での政策改善を含む。
これらの結果に基づいて、動的プログラミングと一般化されたQ-ラーニングアルゴリズムをNVMDPに適用し、公式な収束証明を行う。
関数近似を必要とする問題に対しては,信頼領域政策最適化(TRPO)におけるポリシグラディエント理論と政策改善を拡張し,スカラー形式と行列形式の証明を提供する。
非定常グリッドワールド環境における実証的な評価は、NVMDPベースのアルゴリズムが複数の報酬と割引スキームの下で最適軌道を回復するのに対して、元のQ-ラーニングは失敗することを示した。
これらの結果から,NVMDPは理論的に健全で実用的な強化学習の枠組みであり,非定常性と明示的最適政策形成の堅牢なハンドリングを可能にしつつ,小さなアルゴリズム修正のみを必要とすることが示唆された。
関連論文リスト
- Mirror Descent Policy Optimisation for Robust Constrained Markov Decision Processes [12.666842349236788]
本稿では,ロバストなマルコフ決定過程に対するミラー降下ポリシーの最適化について述べる。
政策勾配法を用いて、ラグランジアン上のポリシー(最大値)と遷移カーネル(最小値)の両方を最適化する。
実験は、制約付きおよび制約なし最適化におけるミラー降下ポリシー最適化の利点を確認する。
論文 参考訳(メタデータ) (2025-06-29T09:55:52Z) - Reinforcement Learning in Switching Non-Stationary Markov Decision Processes: Algorithms and Convergence Analysis [6.399565088857091]
そこで我々は,背景となるマルコフ連鎖に基づいて,環境が時間とともに切り替わる,スイッチング非定常マルコフ決定プロセス(SNS-MDP)を紹介した。
固定されたポリシーの下では、SNS-MDPの値関数はマルコフ連鎖の統計的性質によって決定される閉形式解を認める。
このフレームワークは、複雑な時間変化の文脈で意思決定を効果的に導くことができるかを示す。
論文 参考訳(メタデータ) (2025-03-24T12:05:30Z) - Solving Finite-Horizon MDPs via Low-Rank Tensors [9.072279909866845]
有限水平マルコフ決定過程(MDP)における最適政策の学習問題について検討する。
有限水平 MDP では、ポリシーと従って値関数 (VF) は定常ではない。
本稿では,有限ホライゾン MDP の VF を低ランクテンソルとしてモデル化することを提案する。
論文 参考訳(メタデータ) (2025-01-17T23:10:50Z) - Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究である。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Efficiently Training Deep-Learning Parametric Policies using Lagrangian Duality [55.06411438416805]
制約付きマルコフ決定プロセス(CMDP)は、多くの高度な応用において重要である。
本稿では,パラメトリックアクターポリシーを効率的に訓練するための2段階深度決定規則(TS-DDR)を提案する。
現状の手法と比較して, 解の質を高め, 数桁の計算時間を削減できることが示されている。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Provably Efficient Algorithm for Nonstationary Low-Rank MDPs [48.92657638730582]
我々は,非定常RLを,遷移カーネルと報酬の両方が時間とともに変化するような,エピソードな低ランクMDPで調査する最初の試みを行っている。
本稿では,パラメータ依存型ポリシ最適化アルゴリズムである Portal を提案し,パラメータフリー版である Ada-Portal の Portal をさらに改良する。
両アルゴリズムとも,非定常性が著しく大きくない限り, Portal と Ada-PortAL はサンプリング効率が良く,サンプリング複雑性を伴う平均的動的準最適ギャップを任意に小さく得ることを示す。
論文 参考訳(メタデータ) (2023-08-10T09:52:44Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Q-Learning for MDPs with General Spaces: Convergence and Near Optimality
via Quantization under Weak Continuity [2.685668802278156]
状態と行動の量子化による標準ボレル MDP のQ-ラーニングが限界に収束することを示す。
本稿では,連続型MDPに対するQ-ラーニングの適用性について,非常に一般的な収束と近似結果を示す。
論文 参考訳(メタデータ) (2021-11-12T15:47:10Z) - Sample Efficient Reinforcement Learning In Continuous State Spaces: A
Perspective Beyond Linearity [50.38337893712897]
線形性を仮定しないMDP上の構造条件であるEPW(Effective Planning Window)条件を導入する。
EPW条件は、この条件を満たすMDPを確実に解くアルゴリズムを提供することで、サンプル効率のよいRLを許容することを示した。
また, EPW のような条件の必要性も示し, わずかに非線形な単純な MDP を効率的にサンプリングできないことを示した。
論文 参考訳(メタデータ) (2021-06-15T00:06:59Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。