論文の概要: Acting in Delayed Environments with Non-Stationary Markov Policies
- arxiv url: http://arxiv.org/abs/2101.11992v1
- Date: Thu, 28 Jan 2021 13:35:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-01-31 18:10:14.628826
- Title: Acting in Delayed Environments with Non-Stationary Markov Policies
- Title(参考訳): 非定常マルコフ政策による遅延環境における行動
- Authors: Esther Derman, Gal Dalal, Shie Mannor
- Abstract要約: 本稿では,MDPにおける学習と計画のためのフレームワークについて紹介する。
実行が遅れると、元の状態空間におけるマルコフポリシーは最大報酬を得るのに十分であるが、非定常的である必要があることを証明します。
我々は、状態拡張に頼らずに遅延実行タスクを解く非定常Q学習スタイルのモデルベースアルゴリズムを考案した。
- 参考スコア(独自算出の注目度): 53.17409375006565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The standard Markov Decision Process (MDP) formulation hinges on the
assumption that an action is executed immediately after it was chosen. However,
assuming it is often unrealistic and can lead to catastrophic failures in
applications such as robotic manipulation, cloud computing, and finance. We
introduce a framework for learning and planning in MDPs where the
decision-maker commits actions that are executed with a delay of $m$ steps. The
brute-force state augmentation baseline where the state is concatenated to the
last $m$ committed actions suffers from an exponential complexity in $m$, as we
show for policy iteration. We then prove that with execution delay, Markov
policies in the original state-space are sufficient for attaining maximal
reward, but need to be non-stationary. As for stationary Markov policies, we
show they are sub-optimal in general. Consequently, we devise a non-stationary
Q-learning style model-based algorithm that solves delayed execution tasks
without resorting to state-augmentation. Experiments on tabular, physical, and
Atari domains reveal that it converges quickly to high performance even for
substantial delays, while standard approaches that either ignore the delay or
rely on state-augmentation struggle or fail due to divergence. The code is
available at https://github.com/galdl/rl_delay_basic.git.
- Abstract(参考訳): 標準マルコフ決定プロセス(mdp)の定式化は、アクションが選択された直後に実行されるという仮定にかかっている。
しかし、それはしばしば非現実的であり、ロボット操作、クラウドコンピューティング、金融などのアプリケーションで壊滅的な失敗につながる可能性があります。
MDPの学習と計画のためのフレームワークを紹介し、意思決定者が$m$ステップの遅延で実行されるアクションをコミットします。
状態が最後の$m$のコミットアクションに連結されたブルートフォースステート拡張ベースラインは、ポリシーの繰り返しを示すように、指数関数的な複雑さに悩まされます。
そして、実行遅延により、元の状態空間におけるマルコフポリシーは最大報酬を得るのに十分であるが、非定常であることを証明する。
定常マルコフポリシーについては、一般に準最適であることを示す。
そこで我々は,非定常型Q学習型モデルベースアルゴリズムを考案し,状態拡張に頼らずに遅延実行タスクを解く。
表型、物理的、およびアタリ領域に関する実験では、遅延を無視するか、状態-拡張の闘争に依存している標準アプローチまたは発散のために失敗する一方、かなりの遅延でも高速にハイパフォーマンスに収束することが明らかになった。
コードはhttps://github.com/galdl/rl_delay_basic.gitで入手できる。
関連論文リスト
- Model Predictive Control is Almost Optimal for Restless Bandit [2.295863158976069]
離散時間無限水平平均報酬(RMAB)問題を考える。
本稿では, 回転型計算水平方向を$tau$とする非定常ポリシーを提案する。
局所安定性条件下では、その部分最適性ギャップは一般に$O(1/sqrtN)$、$exp(-Omega(N))$である。
論文 参考訳(メタデータ) (2024-10-08T19:34:23Z) - Tree Search-Based Policy Optimization under Stochastic Execution Delay [46.849634120584646]
遅延実行 MDP は、状態拡張に頼ることなく、ランダムな遅延に対処する新しい形式である。
観測された遅延値から、マルコフポリシーのクラスでポリシー探索を行うのに十分であることを示す。
我々はマルコフポリシーのクラスを最適化するモデルベースのアルゴリズムであるDEZを考案した。
論文 参考訳(メタデータ) (2024-04-08T12:19:04Z) - Stochastic Approximation with Delayed Updates: Finite-Time Rates under Markovian Sampling [73.5602474095954]
マルコフサンプリングの遅延更新による近似スキームの非漸近的性能について検討した。
我々の理論的な発見は、幅広いアルゴリズムの遅延の有限時間効果に光を当てた。
論文 参考訳(メタデータ) (2024-02-19T03:08:02Z) - Model-Free, Regret-Optimal Best Policy Identification in Online CMDPs [17.62509045102346]
本稿では,CMDP(Constrained Markov Decision Processs)における最適ポリシー識別問題について考察する。
私たちは、モデルフリーで、後悔の少ないアルゴリズムに興味を持ち、確率の高いほぼ最適なポリシーを特定しています。
オンラインCMDPのサブ線形後悔と制約違反を伴う既存のモデルフリーアルゴリズムでは、最適ポリシーに対する収束保証は提供されない。
論文 参考訳(メタデータ) (2023-09-27T04:33:09Z) - Bayesian Learning of Optimal Policies in Markov Decision Processes with Countably Infinite State-Space [0.0]
離散時間可算状態空間マルコフ決定過程の族を最適に制御する問題について検討する。
動的サイズのエピソードを用いたトンプソンサンプリングに基づくアルゴリズムを提案する。
提案アルゴリズムは, 近似最適制御アルゴリズムの開発に応用可能であることを示す。
論文 参考訳(メタデータ) (2023-06-05T03:57:16Z) - Horizon-Free Reinforcement Learning in Polynomial Time: the Power of
Stationary Policies [88.75843804630772]
我々は既存の境界に対して,$Oleft(mathrmpoly(S,A,log K)sqrtKright)を後悔するアルゴリズムを設計する。
この結果は、定常政策の近似力、安定性、および濃度特性を確立する新しい構造補題の列に依存している。
論文 参考訳(メタデータ) (2022-03-24T08:14:12Z) - Minimax Regret for Stochastic Shortest Path [63.45407095296692]
我々は、エージェントが最小の総予想コストで目標状態に達する必要がある最短パス(SSP)問題を研究します。
この設定に対するminimaxの後悔は、$widetilde O(B_star sqrt|S| |A|K)$であり、$B_star$は任意の状態から最適なポリシーの予想コストに拘束されることを示しています。
本アルゴリズムは, 有限水平MDPにおける強化学習の新たな削減を基礎として, エピソードごとのインタイム動作を行う。
論文 参考訳(メタデータ) (2021-03-24T10:11:49Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - Provably Efficient Model-Free Algorithm for MDPs with Peak Constraints [38.2783003051101]
本稿では,有限地平線における全報酬の最大化と,各エポックにおける制約を確率1で満たすため,エージェントがポリシーを選択する,制約付きマルコフ決定プロセス(PCMDP)について考察する。
そこで本研究では,PCMDP問題を制約のない問題に変換するモデルフリーアルゴリズムを提案し,Q-ラーニングに基づくアプローチを適用した。
論文 参考訳(メタデータ) (2020-03-11T23:23:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。