論文の概要: Weakly Time-Coupled Approximation of Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2603.12636v1
- Date: Fri, 13 Mar 2026 04:14:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.897252
- Title: Weakly Time-Coupled Approximation of Markov Decision Processes
- Title(参考訳): マルコフ決定過程の弱時間結合近似
- Authors: Negar Soheili, Selvaprabu Nadarajah, Bo Yang,
- Abstract要約: 有限水平マルコフ決定プロセス(MDPs)は、ベルムダンのバリュエーションやエクササイズ、リアルオプションなど、運用と金融に発生する。
共通近似は基底関数を用いた値関数を表すが、重み付け方法は異なる段階最適化を扱う。
この結合は近似アーキテクチャのアーチファクトであり、段差依存が地平線に依存しない弱時間結合近似(WTCA)を開発する。
- 参考スコア(独自算出の注目度): 3.573962752571186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Finite-horizon Markov decision processes (MDPs) with high-dimensional exogenous uncertainty and endogenous states arise in operations and finance, including the valuation and exercise of Bermudan and real options, but face a scalability barrier as computational complexity grows with the horizon. A common approximation represents the value function using basis functions, but methods for fitting weights treat cross-stage optimization differently. Least squares Monte Carlo (LSM) fits weights via backward recursion and regression, avoiding joint optimization but accumulating error over the horizon. Approximate linear programming (ALP) and pathwise optimization (PO) jointly fit weights to produce upper bounds, but temporal coupling causes computational complexity to grow with the horizon. We show this coupling is an artifact of the approximation architecture, and develop a weakly time-coupled approximation (WTCA) where cross-stage dependence is independent of horizon. For any fixed basis function set, the WTCA upper bound is tighter than that of ALP and looser than that of PO, and converges to the optimal policy value as the basis family expands. We extend parallel deterministic block coordinate descent to the stochastic MDP setting exploiting weak temporal coupling. Applied to WTCA, weak coupling yields computational complexity independent of the horizon. Within equal time budget, solving WTCA accommodates more exogenous samples or basis functions than PO, yielding tighter bounds despite PO being tighter for fixed samples and basis functions. On Bermudan option and ethanol production instances, WTCA produces tighter upper bounds than PO and LSM in every instance tested, with near-optimal policies at longer horizons.
- Abstract(参考訳): 高次元外因性不確実性と内因性状態を有する有限ホライゾンマルコフ決定プロセス(MDP)は、ベルムダンのバリュエーションやエクササイズ、実際のオプションを含む運用や金融において発生するが、計算複雑性が地平線とともに増加するにつれてスケーラビリティ障壁に直面している。
共通近似は基底関数を用いた値関数を表すが、重み付け方法は異なる段階最適化を扱う。
最小四角形モンテカルロ(LSM)は後方再帰と回帰を通じて重みに適合し、共同最適化は避けるが地平線上の誤差を蓄積する。
近似線形プログラミング (ALP) と経路最適化 (PO) は重みを結合して上界を生成するが、時間的結合は計算複雑性を水平線で増大させる。
この結合は近似アーキテクチャのアーチファクトであり、段差依存が地平線に依存しない弱時間結合近似(WTCA)を開発する。
任意の固定基底関数集合に対して、WTCA上界は ALP よりも強く、PO よりも緩く、基底族が拡大するにつれて最適なポリシー値に収束する。
我々は,時間的結合の弱さを生かした確率的MDP設定に並列決定論的ブロック座標降下を拡張した。
WTCAに適用すると、弱い結合は水平線に依存しない計算複雑性をもたらす。
同じ時間予算内では、WTCAの解法はPOよりも外生的なサンプルや基底関数を許容し、POが固定されたサンプルや基底関数に対してより厳密な境界を持つにもかかわらず、より厳密な境界を与える。
バームダンオプションとエタノール製造インスタンスでは、WTCAはテストされた全てのインスタンスにおいてPOやLSMよりも厳しい上界を発生し、より長い地平線でほぼ最適にポリシーが設定される。
関連論文リスト
- Closing the Approximation Gap of Partial AUC Optimization: A Tale of Two Formulations [121.39938773554523]
ROC曲線の下の領域(AUC)は、クラス不均衡と決定制約の両方を持つ実世界のシナリオにおける重要な評価指標である。
PAUC最適化の近似ギャップを埋めるために,2つの簡単なインスタンス単位のミニマックス修正を提案する。
得られたアルゴリズムは、サンプルサイズと典型的な一方方向と双方向のPAUCに対して$O(-2/3)$の収束率の線形パーイテレーション計算複雑性を享受する。
論文 参考訳(メタデータ) (2025-12-01T02:52:33Z) - Provably Efficient RL under Episode-Wise Safety in Constrained MDPs with Linear Function Approximation [32.74649239695449]
制約決定過程(CMDP)における強化学習問題について検討する。
本稿では,リニアCMDPに対するRLアルゴリズムを提案する。
その結果,近年の線形CMDPアルゴリズムでは,制約に違反するか,指数計算コストに悪影響を及ぼす結果が得られた。
論文 参考訳(メタデータ) (2025-02-14T13:07:25Z) - Efficiently Training Deep-Learning Parametric Policies using Lagrangian Duality [55.06411438416805]
制約付きマルコフ決定プロセス(CMDP)は、多くの高度な応用において重要である。
本稿では,パラメトリックアクターポリシーを効率的に訓練するための2段階深度決定規則(TS-DDR)を提案する。
現状の手法と比較して, 解の質を高め, 数桁の計算時間を削減できることが示されている。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - A Near-Optimal Single-Loop Stochastic Algorithm for Convex Finite-Sum Coupled Compositional Optimization [53.14532968909759]
ALEXRと呼ばれる,効率的な単ループプリマル・デュアルブロック座標アルゴリズムを提案する。
本研究では, ALEXR の凸面および強凸面の収束速度を滑らか性および非滑らか性条件下で確立する。
CFCCO の ROC 曲線の下での GDRO および部分領域の実験結果から,提案アルゴリズムの有望な性能を示す。
論文 参考訳(メタデータ) (2023-12-04T19:00:07Z) - Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。
線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - Efficient semidefinite bounds for multi-label discrete graphical models [6.226454551201676]
このようなモデルにおける主要なクエリの1つは、Posteri(MAP)ネットワークのコストに関するSDPWCSP関数を特定することである。
従来の二重化制約手法と,行ごとの更新に基づく専用SDP/Monteiroスタイルの手法を検討する。
論文 参考訳(メタデータ) (2021-11-24T13:38:34Z) - Fast Global Convergence of Policy Optimization for Constrained MDPs [17.825031573375725]
勾配法は最適性ギャップと制約違反の両方に対して$mathcalO(log(T)/T)$大域収束率が得られることを示す。
スレーターの条件が満たされ、事前条件が知られているとき、十分大きなT$に対してゼロ制約違反がさらに保証される。
論文 参考訳(メタデータ) (2021-10-31T17:46:26Z) - Faster Algorithm and Sharper Analysis for Constrained Markov Decision
Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。
新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。
これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文 参考訳(メタデータ) (2021-10-20T02:57:21Z) - Successive Convex Approximation Based Off-Policy Optimization for
Constrained Reinforcement Learning [12.523496806744946]
本稿では,一般的な制約付き強化学習問題の解法として,凸近似に基づくオフポリティ最適化(SCAOPO)アルゴリズムを提案する。
時変状態分布と非政治学習によるバイアスにもかかわらず、実現可能な初期点を持つSCAOPOはカルーシュ=クーン=タッカー点に確実に収束することができる。
論文 参考訳(メタデータ) (2021-05-26T13:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。