論文の概要: Acting in Delayed Environments with Non-Stationary Markov Policies
- arxiv url: http://arxiv.org/abs/2101.11992v3
- Date: Mon, 18 Sep 2023 07:53:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 21:14:02.626788
- Title: Acting in Delayed Environments with Non-Stationary Markov Policies
- Title(参考訳): 非定常マルコフ政策による遅延環境における行動
- Authors: Esther Derman and Gal Dalal, Shie Mannor
- Abstract要約: 本稿では,MDPにおける学習と計画のためのフレームワークについて紹介する。
実行が遅れると、元の状態空間における決定論的マルコフポリシーは最大報酬を得るのに十分であるが、非定常である必要があることを証明します。
我々は、状態拡張に頼らずに遅延実行タスクを解く非定常Q学習スタイルのモデルベースアルゴリズムを考案した。
- 参考スコア(独自算出の注目度): 57.52103323209643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The standard Markov Decision Process (MDP) formulation hinges on the
assumption that an action is executed immediately after it was chosen. However,
assuming it is often unrealistic and can lead to catastrophic failures in
applications such as robotic manipulation, cloud computing, and finance. We
introduce a framework for learning and planning in MDPs where the
decision-maker commits actions that are executed with a delay of $m$ steps. The
brute-force state augmentation baseline where the state is concatenated to the
last $m$ committed actions suffers from an exponential complexity in $m$, as we
show for policy iteration. We then prove that with execution delay,
deterministic Markov policies in the original state-space are sufficient for
attaining maximal reward, but need to be non-stationary. As for stationary
Markov policies, we show they are sub-optimal in general. Consequently, we
devise a non-stationary Q-learning style model-based algorithm that solves
delayed execution tasks without resorting to state-augmentation. Experiments on
tabular, physical, and Atari domains reveal that it converges quickly to high
performance even for substantial delays, while standard approaches that either
ignore the delay or rely on state-augmentation struggle or fail due to
divergence. The code is available at
https://github.com/galdl/rl_delay_basic.git.
- Abstract(参考訳): 標準マルコフ決定プロセス(mdp)の定式化は、アクションが選択された直後に実行されるという仮定にかかっている。
しかし、それはしばしば非現実的であり、ロボット操作、クラウドコンピューティング、金融といったアプリケーションで壊滅的な失敗を引き起こす可能性があると仮定する。
我々は、mdpにおける学習と計画のためのフレームワークを紹介し、意思決定者は、$m$のステップで実行されるアクションをコミットする。
状態が最後の$m$のコミットアクションに連結されたブルートフォースステート拡張ベースラインは、ポリシーの繰り返しを示すように、指数関数的な複雑さに悩まされます。
そして、実行遅延により、元の状態空間における決定論的マルコフポリシーは最大報酬を得るのに十分であるが、非定常であることを証明する。
定常マルコフポリシーについては、一般に準最適であることを示す。
その結果、状態拡張に頼らずに遅延実行タスクを解く非定常Q学習型モデルベースアルゴリズムを考案した。
表、物理、アタリドメインの実験では、遅延を無視するか、状態拡張の苦労に頼ったり、分散のために失敗する標準的なアプローチに対して、かなりの遅延があっても高速に収束する。
コードはhttps://github.com/galdl/rl_delay_basic.gitで入手できる。
関連論文リスト
- Model Predictive Control is Almost Optimal for Restless Bandit [2.295863158976069]
離散時間無限水平平均報酬(RMAB)問題を考える。
本稿では, 回転型計算水平方向を$tau$とする非定常ポリシーを提案する。
局所安定性条件下では、その部分最適性ギャップは一般に$O(1/sqrtN)$、$exp(-Omega(N))$である。
論文 参考訳(メタデータ) (2024-10-08T19:34:23Z) - Tree Search-Based Policy Optimization under Stochastic Execution Delay [46.849634120584646]
遅延実行 MDP は、状態拡張に頼ることなく、ランダムな遅延に対処する新しい形式である。
観測された遅延値から、マルコフポリシーのクラスでポリシー探索を行うのに十分であることを示す。
我々はマルコフポリシーのクラスを最適化するモデルベースのアルゴリズムであるDEZを考案した。
論文 参考訳(メタデータ) (2024-04-08T12:19:04Z) - Stochastic Approximation with Delayed Updates: Finite-Time Rates under Markovian Sampling [73.5602474095954]
マルコフサンプリングの遅延更新による近似スキームの非漸近的性能について検討した。
我々の理論的な発見は、幅広いアルゴリズムの遅延の有限時間効果に光を当てた。
論文 参考訳(メタデータ) (2024-02-19T03:08:02Z) - Model-Free, Regret-Optimal Best Policy Identification in Online CMDPs [17.62509045102346]
本稿では,CMDP(Constrained Markov Decision Processs)における最適ポリシー識別問題について考察する。
私たちは、モデルフリーで、後悔の少ないアルゴリズムに興味を持ち、確率の高いほぼ最適なポリシーを特定しています。
オンラインCMDPのサブ線形後悔と制約違反を伴う既存のモデルフリーアルゴリズムでは、最適ポリシーに対する収束保証は提供されない。
論文 参考訳(メタデータ) (2023-09-27T04:33:09Z) - Bayesian Learning of Optimal Policies in Markov Decision Processes with Countably Infinite State-Space [0.0]
離散時間可算状態空間マルコフ決定過程の族を最適に制御する問題について検討する。
動的サイズのエピソードを用いたトンプソンサンプリングに基づくアルゴリズムを提案する。
提案アルゴリズムは, 近似最適制御アルゴリズムの開発に応用可能であることを示す。
論文 参考訳(メタデータ) (2023-06-05T03:57:16Z) - Horizon-Free Reinforcement Learning in Polynomial Time: the Power of
Stationary Policies [88.75843804630772]
我々は既存の境界に対して,$Oleft(mathrmpoly(S,A,log K)sqrtKright)を後悔するアルゴリズムを設計する。
この結果は、定常政策の近似力、安定性、および濃度特性を確立する新しい構造補題の列に依存している。
論文 参考訳(メタデータ) (2022-03-24T08:14:12Z) - Minimax Regret for Stochastic Shortest Path [63.45407095296692]
我々は、エージェントが最小の総予想コストで目標状態に達する必要がある最短パス(SSP)問題を研究します。
この設定に対するminimaxの後悔は、$widetilde O(B_star sqrt|S| |A|K)$であり、$B_star$は任意の状態から最適なポリシーの予想コストに拘束されることを示しています。
本アルゴリズムは, 有限水平MDPにおける強化学習の新たな削減を基礎として, エピソードごとのインタイム動作を行う。
論文 参考訳(メタデータ) (2021-03-24T10:11:49Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - Provably Efficient Model-Free Algorithm for MDPs with Peak Constraints [38.2783003051101]
本稿では,有限地平線における全報酬の最大化と,各エポックにおける制約を確率1で満たすため,エージェントがポリシーを選択する,制約付きマルコフ決定プロセス(PCMDP)について考察する。
そこで本研究では,PCMDP問題を制約のない問題に変換するモデルフリーアルゴリズムを提案し,Q-ラーニングに基づくアプローチを適用した。
論文 参考訳(メタデータ) (2020-03-11T23:23:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。